自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 资源 (3)
  • 收藏
  • 关注

原创 统计分布-目录

第一章,预备知识第二章,离散型随机变量分布第2章-离散型随机变量分布(1)-两点分布第2章-离散型随机变量分布(2)-二项分布第2章-离散型随机变量分布(3)-泊松分布第2章-离散型随机变量分布(4)-超几何分布第2章-离散型随机变量分布(5)-几何分布第2章-离散型随机变量分布(6)-负二项分布第2章-离散型随机变量分布(7)-其他分布第三章,正态分布以及有关的分布第3章-...

2019-01-08 11:36:42 436

原创 R语言学习-目录

第一部分,R语言基础第一章,基础知识第二章,数据处理第三章,数据探索第四章,数据可视化-系统第五章,数据可视化-lattice第六章,数据可视化-ggplot2第二部分,R语言与统计学第七章,R语言与统计学-概率论与数理统计第八章,R语言与统计学-抽样第九章,R语言与统计学-估值第十章,R语言与统计学-假设检验第十一章,R语言与统计学-多元分析第十二章,R语言与统计学-回...

2018-12-06 21:27:17 566

原创 从模型到算法-目录

出于对数据分析、数据挖掘方面的兴趣,以及在未来工作上的帮助。本博打算多看一些相关书籍与博客,总结及翻译相应的知识点。使得自己对这块的知识越来越了解,总结的文章初步分为以下章节:第一章,EDA-数据探索 第二章,线性回归与模型诊断 第三章,从线性概率模型到广义线性模型 第四章,模型中特征子集的选择 第五章,维度归约 第六章,数据缺失与不平衡的处理 第七章,广义相加模型(GAMs) 第八章

2016-07-11 18:15:20 1075

原创 第17章-非监督学习(1)-基于划分的聚类

斯坦福大学公开课

2019-02-13 12:42:30 742

转载 第6章-数据缺失与不平衡的处理(2)-数据不平衡

Pyle’s book : Data preparation for Data Mining Weiss Predictive Data Mining

2019-01-15 17:37:58 1456

原创 第2章-回归模型(3)-模型筛选

简介根据前两节的内容,我们的模型就建立完成了嘛?答案是 NO。如果我们有10个候选变量,每个候选变量在回归模型中都有选中和非选中两种状态,那么模型的组合形式有210=10242^{10}=1024210=1024种。假设用了显著性的检验,以及诊断检验方法后,还有24种模型,那我们要如何选择呢 ?回归模型对于特征变量的选取有下面四种形式:变量与实际情况基本吻合缺失了几个相关的重要变量(不...

2019-01-15 09:26:39 4059

原创 第2章-回归模型(2)-模型诊断

简介上一节,我们研究了回归模型的线性定义,假设条件,参数估计,以及基于统计学检验的模型评价。但是这并不是意味着我们的回归模型以及可以投入使用,进行决策了。我们还需要在计量经济学的基础上验证模型,当模型出现多重共线性、异方差、序列相关等等问题时,我们需要如何应对与处理。接下来我们来分别针对不同的情况看进行处理正文一,异方差(Heteroscedasticity)(一) 异方差的介绍在线性...

2019-01-10 11:32:03 8223

原创 第2章-回归模型(1)-线性回归模型与估计

简介最早接触线性回归,是在计量经济学中。最简单最基础的即是一元线性回归模型。通过一元线性回归可以衍生出了许多模型,所以学好一元线性回归是非常有必要的,是目前所有回归模型的基础。即使跳出统计、计量的领域,到了数据挖掘、人工智能的领域,线性回归模型也是打好基础的重中之重。谈到模型之前,样本数据的类型也是值得探讨的。按照数据截取的方向划分,有三类:横截面数据(cross section data...

2019-01-07 18:51:55 5138

原创 第八章,Longitudinal Data或Panel Data模型

简介什么是Longitudinal Data 或 Panel Data呢 ?由第二章的内容我们知道,一般的回归模型针对的是截面数据,而纯粹的时间序列数据也是有专门的模型进行拟合。无论是时间序列还是截面数据,都是一维的,要么是变量按照时间顺序得到的序列,要么是变量在同一时间上的数据。Panel data(面板数据) 原指一组固定的调查对象的多次观测值,目前已经变成专业术语,泛指上述两种混合类型...

2019-01-03 16:39:36 10808 1

原创 第五章,数据可视化-ggplot2

简介虽然,目前有很多工具可以用来进行数据分析,但是R语言在数据可视化上的优势基本无它能敌。其中最具盛名的包就是Hadly Wickham开发的ggplot2包。正文一,快速探索数据-从qplot开始R中查看函数文档信息require(ggplot2)help(“qplot”)qplot(x, y, …, data, facets = NULL, margins = FALSE, g...

2018-12-29 10:20:11 1003

原创 第1章-数据探索(4)-数据的统计分析

简介数据探索的第二个部分就是统计分析部分了。根据第四章的知识,我们知道对于特征子集的筛选,即对变量的筛选,我们有两个大角度,一个角度是从统计角度来看,一个角度是从机器学习算法的角度(正则化)来看。站在第二个角度的立场,我们是不用进行这么复杂的统计分析的,直接跑模型即可。那么接下来的内容,我们主要是站在第一个角度的立场来看问题,顺便了解一些统计方法。统计分析又可以分为描述性分析以及推断性分析两...

2018-12-28 14:14:45 1101

原创 第1章-数据探索(3)-数据预处理之R实现

简介R语言中,自身已经带有了强大的数据处理、数据计算等方面的函数。虽然,对于大规模的数据集合,处理过程可能会不如Python快,但是小规模的数据处理,R语言使用起来仍然会更方便。值得注意的是,为了执行效率,我们要尽量避免在R语言中,使用循环函数,而是要运用向量化的处理函数,即R语言Base基础包中,apply家族的函数—参见R语言基础知识(四、3)。当然,记得apply家族的那么多函数以及...

2018-12-09 16:17:02 944

原创 第一章,R语言-基础知识

简介R语言主要用于数据可视化与统计分析,当然现在也可以通过扩展包实现数据挖掘等算法。与Python相比,R语言相当于天生就加载了NumPy,SciPy,Pandas的大多数功能。现在来介绍一些R语言的基本知识。正文一,入门操作1, 包(1)下载包install.packages(c("xts", "zoo"),lib = "some/other

2018-12-09 15:04:13 1377 4

原创 第1章-数据探索(2)-数据预处理之Python实现

简介Python中,在数据处理这方面最流行的包应当是属于Pandas了。Pandas与Scipy一样,都是基于NumPy这个包开发出来的,所以使用时,都需要引用Numpy。Pandas中的DataFrame与R语言中的数据框的设计理念基本是一致的。不光如此,除了是DataFrame数据类型以外,Pandas还提供时间序列类型Series,以及面板类型Panel。import numpy as ...

2018-11-27 11:33:48 1535

原创 第1章-数据探索(1)-数据预处理

简介在我们了解了业务背景,确定了需求和分析目标以后,我们接下来要面对的,就是数据的探索了。不论数据的形式是直接连到数据库、还是导出的csv、txt、json等格式,当我们把数据加载到我们的分析利器(excel/spss/r/python/matlab)之后,不需要太多时间,我们就能了解到数据的概貌了,比如维度是N * M,以及各个字段的含义等等。然而,接下来要做的事情,就不是“不需要太多时间”...

2018-11-22 19:14:20 2999

原创 第11章,从感知机到支持向量机

感知机(perceptron)到支持向量机

2017-08-29 08:18:22 694

原创 第7章,广义相加模型(GAMs)

参考: 第七章:http://www-bcf.usc.edu/~gareth/ISL/ https://en.wikipedia.org/wiki/Spline_(mathematics) http://web.as.uky.edu/statistics/users/pbreheny/621/F10/notes/11-4.pdf http://learning.cis.upenn.edu/c

2016-12-01 15:41:42 54246 7

原创 第5章-维度归约

原文参考 https://onlinecourses.science.psu.edu/stat857/node/11 http://www.doc88.com/p-315762247283.html http://wenku.baidu.com/link?url=OrBkfJFwZ_l8soN6CRE2B1KAI-988Z0wrzG_K59W39l7ycRTNd6xeH6hFUnRugEywP

2016-07-26 16:08:57 2708

原创 第3章-从线性概率模型到广义线性模型(2)

原文参考 斯坦福机器学习cs229-2-Generative Learning algorithms https://mathdept.iut.ac.ir/sites/mathdept.iut.ac.ir/files/AGRESTI.PDF http://data.princeton.edu/wws509/notes/c4a.pdf http://www.cnblogs.com/ooon/p

2016-07-26 14:22:24 2534

翻译 第4章-模型中特征子集的选择

原文参考: https://onlinecourses.science.psu.edu/stat857/node/137 扩展参考: http://sites.stat.psu.edu/~jiali/course/stat597e/notes2/lreg.pdf https://etd.ohiolink.edu/!etd.send_file?accession=case1300817082&

2016-06-08 11:51:30 8315

翻译 第10章-基于树的方法(3)-树的改进-集成方法

10.8.4 随机森林Leo Breiman 研究了基于决策树的扩展算法,称作随机森林。有很多软件可以实施该算法,可以先阅读wiki上的简介: http://en.wikipedia.org/wiki/Random_forest详细介绍,将在后面讲解。我们先来说一下另一中决策树的改进方向。-候选问题决策树的后续问题是关于变量大于还是小于给定的值的问题。 另一些改进,是把候选问

2016-05-27 21:03:42 1024

翻译 第10章-基于树的方法(2)-树的剪枝

10.8 通过剪枝得到最优规模的树之前我们讨论的都是如何生成树,接下来我们要讲解的是如何进行剪枝。我们令一个树 T 的误分类误差的期望为R∗(T)R^*(T). 回想一下,我们是用再代入误差估计,估计的R∗(T)R^*(T),即R(T)=∑t∈T′R(t)=∑t∈T′p(t)r(t)R(T)=\sum_{t∈T'}{R(t)}=\sum_{t∈T'}{p(t)r(t)}再来想一下,10.3中所讲的

2016-05-17 16:47:55 2068

翻译 第10章-基于树的方法(1)-生成树

原文参考:https://onlinecourses.science.psu.edu/stat857/node/22一,本章简介1,本章主要学习目标理解决策树的基本概念理解构成决策树的三个基本元素理解’不纯度’及其他度量公式的定义知道如何估计每个树节点的各个所属分类的后验概率理解基于树的分类方法的优点理解训练误差(或称再代入误差) 和 代价复杂度测量方法,知道它们的区别,以

2016-05-05 21:44:49 3674

转载 js关闭页面

转载博客:JS中关闭窗口的方法window.close()在IE上能够正常动作,而在FireFox和Chrome上无法动作。

2015-12-30 18:25:38 572

原创 第3章-线性概率模型(1)-logistics/probit模型

二值因变量模型在统计学中,有一种离散变量为二值变量(又称虚拟变量、哑变量),本文讨论的是当因变量y为二值变量时的模型。Logistic模型也是一种二值因变量模型。探讨Logistic模型之前,我们先从线性概率模型(Linear Probability Model,LPM)谈起,然后逐步介绍Logistics模型以及其他非线性模型.

2015-11-19 21:55:29 59231 2

基本版道路运政管理信息系统介绍.pdf

电子化运政系统ppt内容介绍。全国道路运政管理信息系统基本版,由中国交通通信信息中心开发。允许各地依托基本版进行二次开发。2017年开始已有七个省份(吉林、福建、湖南、湖北、贵州、海南、河北)使用基本版,使用情况良好。

2019-06-11

抽样调查中样本数量的确定

抽样调查中最重要的就是先要确定调查样本的数量。怎样合理的确定样本量,非常重要。此文献详细说明了怎样科学合理地确定样本量。

2010-05-06

精算实务ppt第一章 寿险和年金种类 第二章寿险核保,第三章再保险,第四章保单现金价值与红利 第五章 保险定价

对精算实务讲解的课件,一共五章。第一章 寿险和年金种类 第二章寿险核保,第三章再保险,第四章保单现金价值与红利 第五章 保险定价

2010-04-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除