统计学/机器学习
文章平均质量分 67
介绍机器学习,统计学的相关理论与操作实践
心态与习惯
trust yourself, then success will follow you.
展开
-
全期望值定理与全方差定理
全期望值定理(law of total expectation)比较熟悉,竟然还有个全方差定理(law of total variance),关于条件期望与条件方差的,总结一下。原创 2023-02-17 07:26:06 · 2093 阅读 · 0 评论 -
关于组合数(二项系数)的一个递推公式
对于组合数,一些英文资料里也称为二项系数(二项分布的系数),有一个递推公式。这个非常容易证明,将表达式展开为阶乘计算即可。最近听到一位教授提起,发下自己忘了,于是写篇博客记录下。原创 2022-11-16 06:03:07 · 962 阅读 · 0 评论 -
负二项分布
负二项分布与二项分布不一样,它表示在一些列伯努利试验中,成功概率为 $p$,成功次数为 $r$ 之前的失败次数的概率分布原创 2022-08-07 04:32:20 · 2153 阅读 · 0 评论 -
测度论中的概率空间,可测空间
随机规划理论、随机过程中经常见到概率空间的使用,总结一下。原创 2022-07-22 01:06:59 · 1600 阅读 · 1 评论 -
二项分布近似成泊松分布、正态分布
二项分布可以在一定条件下近似为泊松分布、正态分布。原创 2022-07-12 00:55:14 · 13183 阅读 · 0 评论 -
推土距离, Wasserstein distance
在鲁棒优化中见到一个名词:Wasserstein distance, 又称作 earth mover's distance,堆土距离。用来测量两个随机分布的距离。之所以叫堆土距离,是因为它的物理含义是:将一个随机分布的直方图,变化成另一个随机分布的直方图,直方图变动的最小距离和。直方图中的每个小柱子可以视作一个土堆。...原创 2022-05-26 18:50:54 · 1607 阅读 · 1 评论 -
克隆巴赫系数 Cronbach‘s alpha 及 R, Python 实现
克隆巴赫系数 Cronbach’s alpha 是度量问卷信度(Reliability)的一个指标,一般大于 0.7 表示问卷的信度可以接受,大于 0.8 表示问卷的信度良好,大于 0.9 表示问卷的信度优秀。信度即测量的一致性,表示若问卷中的问题重复很多次问同一个人,这个人的回答总是一致的。效度是衡量问卷中的问题能否测量出它应该测量的事物的成都,例如网上的一些 IQ 测试问题真的能反映一个人的真实智力吗?这个就属于效度要衡量的东西。信度的标准定义为真值方差与测量值的方差之比。测量值 xxx 与真值 τ原创 2022-04-21 14:48:33 · 17495 阅读 · 0 评论 -
关于条件方差的一个性质
今天看到关于条件方差的一条性质,记录下来:Var(Y)=E(Var(Y∣X))+Var(E(Y∣X))\text{Var} (Y) = \text{E}(\text{Var}(Y|X))+\text{Var}(\text{E}(Y|X)) Var(Y)=E(Var(Y∣X))+Var(E(Y∣X))而条件均值的性质为:E(Y)=E(E(Y∣X))\text{E}(Y)=\text{E}(\text{E}(Y|X))E(Y)=E(E(Y∣X))...原创 2021-12-29 12:21:31 · 5175 阅读 · 1 评论 -
统计模型评价准则 AIC
统计模型评价时,经常见到一个准则 AIC, 全称是 Akaike information criterion,是以日本的统计学家 Akaike 命名的,它的计算公式为:AIC=2k−ln(L^)AIC=2k-\ln(\hat{L})AIC=2k−ln(L^)其中,kkk 是模型中的待估参数数量, L^\hat{L}L^ 是该模型极大似然估计的最大值。AIC 值越小,说明该统计模型损失的信息越少。...原创 2021-12-03 17:39:03 · 3613 阅读 · 0 评论 -
max-min 不等式(minimax inequality)
在一篇鲁棒优化相关的论文中,看到了 minimax inequality,又称作 max-min 不等式。查了一下,原来在拉格朗日对偶中应用过,写篇博客总结一下。原创 2021-11-09 13:25:33 · 2746 阅读 · 0 评论 -
大致看了下伍德里奇的《计量经济学导论》
我的研究方向也有不少做实证研究的,而计量经济学是实证研究的重要武器,因此,在 8 月份时看了这本经典的计量经济学教材。的确比不少国内教材好,优点是比较详细,很多知识点讲解地很清楚看到第10章之后,略微有点吃力了。因为看的速度太快,没有完全消化,很多知识点需要再看一遍这本书有很多例子和课后题,配合一些计量软件练习,应该能学地更好,stata 是做计量最好的软件,有必要学一学...原创 2021-08-22 16:39:08 · 857 阅读 · 0 评论 -
霍夫丁不等式 Hoeffding inequality
霍夫丁不等式是描述:一组相互独立并且有界的变量偏离其均值的和大于一定值的概率具有一个上界。该不等式最初是研究二项分布的性质。假设有一组相互独立的随机变量 X1,X2,…,XnX_1, X_2, \dots, X_nX1,X2,…,Xn,每个随机变量的波动区间为 [ai,bi][a_i, b_i][ai,bi],i=1,2,…,ni=1, 2,\dots,ni=1,2,…,n。令 X‾=1n(X1+X2+⋯+Xn)\overline{X}=\frac{1}{n}(X_1+X_2+\dots+X_原创 2021-06-28 11:08:01 · 1130 阅读 · 0 评论 -
自回归,移动平均模型,ARMA,ARIMA
近段时间在论文里经常见到一些学者用自回归模型(Auto-regression)生成时间序列数据的随机数,决定总结一些。时间序列数据 {xt}\{x_t\}{xt} 可以表示为它的前期值和随机误差项的线性函数,即xt=ct+φ1xt−1+φ2xt−2+⋯+φpxt−p+εtx_t=c_t+\varphi_1 x_{t-1}+\varphi_2 x_{t-2}+\dots+\varphi_p x_{t-p}+\varepsilon_txt=ct+φ1xt−1+φ2xt−2+⋯+φpxt−原创 2021-05-11 21:34:19 · 4664 阅读 · 3 评论 -
python 判别分析:线性判别与二次判别
《多元统计分析》课程中的判别分析章节,一般会讲线性判别、贝叶斯判别与 Fisher 判别。但在 python 中的 sklearn 包里,只有线性判别(Linear Discriminant Analysis,LDA)与二次判别(Quadratic Discriminant Analysis)两类。...原创 2021-04-12 15:07:56 · 1379 阅读 · 0 评论 -
看了下李航的《统计学习方法》
寒假期间看了李航的《统计学习方法》,除了文本分析、图像识别的一些方法外,其他方法基本都看了。我觉得这本书应该是最好的机器学习中文书籍了,除了神经网络没有涉及,大部分机器学习方法介绍地都很详细。这本书的最大优点是:许多方法都配有一个数值例子,展示算法的计算过程,这样非常便于理解机器学习算法到底是怎么算的。这本书还有不少数学推导,若只是应用方法,一些推导过程可以不看。数学符号使用也很规范,可以看出作者强大的数学功底。我见其他一些书可能出现数学符号前后不一的情况。未来有时间的话,把这些方法用到学术研究原创 2021-02-24 14:59:56 · 891 阅读 · 0 评论 -
sklearn 中的数据预处理函数,标准化
sklearn 是 python 中一个常用的机器学习与统计分析包,功能十分强大,即能做普通的统计分析,也可以做一些常用的机器学习。在分析数据前,一般要对数据进行预处理,常用的数据预处理函数有:scale: 对每列数据进行快速标准化(z 标准化),以均值为0,标准差为1的正态分布对每列数据进行标准化MinMaxScaler: 标准化后每一列数据都落在 [0, 1] 之间StandardScaler: 类似于 Scale,只不过可保存训练集中的均值、方差参数Normalize: 对每一行按p-范原创 2020-07-31 01:01:50 · 1061 阅读 · 0 评论 -
支持向量机(SVM)原理,Python 代码
大约从硕士阶段就听说过 SVM 了,但是没有真正用过,这几天刚好看了看相关的内容,就简单写一下心得,供以后查阅用。支持向量机是一个二分分类方法,比较适合判断只有两个类别的分类问题。从几何意义上看,SVM 的基本思想是找到一个分类的直线(或平面,或者非线性曲线或平面),将两个类别的数据分开。在数学原理上,优化目标是让中间的分割线离两类数据边缘的距离最大。构建一个数学优化模型,并利用拉格朗日对偶模型求解,具体可以参考这篇博客,比英文维基百科介绍地都清楚:https://blog.csdn.net/BIT原创 2020-08-03 14:51:37 · 1958 阅读 · 0 评论 -
BP 神经网络(反向传播的神经网络)的解读,python 代码
文章目录一、 神经网络算法的内涵二、神经元之间信息的传递三、采用梯度下降法使误差减小四、BP 神经网络的局限性1. 不能保证得到全局最优解2. 输入的数据不要求标准化,但若标准化,可以提高神经网络的表现。人工神经网络这几年太火了,普遍用于预测、语音或图像识别。四五年前曾经想学习,但没有找到好的学习资料,一直一知半解的。最近一段时间因为要用 BP 神经网络做需求预测,就重新捡起来了。中文资料大部分...原创 2019-08-13 17:24:52 · 3608 阅读 · 1 评论 -
分位数回归 Quantile Regression,python 代码
偶尔在机器学习的论文中了解到了分位数回归,发现这个方法应用也满广的。一般的回归方法是最小二乘法,即最小化误差的平方和:min∑(yi−y^i)2\min\quad \sum(y_i-\hat{y}_i)^2min∑(yi−y^i)2其中,yiy_iyi 是真实值,而 y^i\hat{y}_iy^i 是预测值。而分位数的目标是最小化加权的误差绝对值和:miny^i∑yi≥y^iτ∣yi−y^i∣+∑yi<y^i(1−τ)∣yi−y^i∣\min_{\hat{y}_i}\quad原创 2020-12-07 11:24:52 · 6839 阅读 · 4 评论 -
Logistic 逻辑回归,python 代码
1. 引言Logistic 逻辑回归比较适合分类型因变量的回归,这种问题在现实中很多,因此 Logistic 回归的应用还挺广泛的原创 2020-11-21 17:28:10 · 3416 阅读 · 0 评论 -
Python 中 scipy 包拟合分布函数 fit 的不足
最近使用 scipy 包中的 fit 函数拟合随机分布,发现它得出的参数怪怪的, KS 检验的结果也与其他软件(R语言,EasyFit)的结果不一样。例如,有时候明明一个随机分布拟合的很好,但 ks 检验的 p 值却很小。还没找到具体的原因,我想可能由于 scipy 包在定义随机分布时,一般都有一个 loc 参数, scale 参数,或者再有一个 shape 参数,这会与不少随机分布的标准定义有点差别,看着十分别扭。再进行 ks 检验时,或许不能直接代入 fit 生成的参数值。正确的原因等以后找到了再原创 2020-09-20 23:09:10 · 1482 阅读 · 2 评论 -
粗略读了一遍李子奈的《计量经济学》
暑假相对空闲时间比较多,于是粗略读完了李子奈的《计量经济学》。为什么要读计量经济学呢,主要有以下几方面原因:做实证研究基本都要用到计量经济学。了解计量经济学的理论后,大致可以清楚实证研究的套路虽然我现在主要做理论研究,但以后可能会用到实证研究及计量经济学的理论。理论研究比较难,普通学生上手不容易,以后指导学生或许要用到计量经济学。计量经济学其实跟统计学有着千丝万缕的联系。看了这本书,发现我对统计学的一些基本原理的理解更好了。但我发现这本教材有几个缺点:数学符号标注不是很规范。例如矩阵一般要用原创 2020-08-29 11:41:43 · 2478 阅读 · 3 评论 -
主成分分析 python, sklearn
六月份似乎太忙,将近一个月没有写博客,于是挑一个多元统计分析中的方法写一篇 python 操作实现的。主成分分析(Principle Component Analysis, PCA)是数据降维的一个方法:原始的统计数据中有很多变量,可以采用主成分分析方法将原始数据降维为少数几个变量的数据。主成分分析的求解一般采用特征根分解,即求解原始数据协方差矩阵或相关系数矩阵最大特征根对应的特征向量,即为第一主成分,第二主成分为第二大特征根对应的特征向量,其他的主成分可以依次得出。主成分贡献率为对应特征根占所有特征根原创 2020-06-24 15:27:03 · 11290 阅读 · 0 评论 -
PP图,QQ 图,及 python 画图
统计学中有时会会用到 PP 图 或 QQ 图原创 2020-05-24 20:55:13 · 15056 阅读 · 1 评论 -
Durbin-Watson 检验
Durbin-Watson 检验,又称 DW 检验,是用来检验残差的自相关性的。假设残差为 ete_tet,各残差的相关性方程用 et=ρet−1+vte_t=\rho e_{t-1}+v_tet=ρet−1+vt,检验的原假设为:ρ=0\rho=0ρ=0,备选假设:ρ≠0\rho\neq 0ρ=0,检验统计量:d=∑t=2T(et−et−1)2∑t=1Tet2d=\frac{\sum^{T}_{t=2}(e_t-e_{t-1})^2}{\sum^{T}_{t=1}e_t^2}d=∑t=1T原创 2020-05-16 13:54:07 · 41353 阅读 · 0 评论 -
spss 的判别分析输出结果解读,P(D>d|G=g), P(G=g|D=d),个案输出结果 casewise statistics
经过查阅资料,终于弄明白了 spss 判别分析的一些结果:预测组,给出的结果是贝叶斯判别的预测结果P(D>d|G=g):在既定组内,大于某样本的概率。设既定组的累计分布函数为 Fg()F_g()Fg(),样本向量表示为 x\bf xx,则它的值为,1−Fg(x)1-F_g(\bf x)1−Fg(x)P(G=g|D=d):该样本的后验概率到质心的平方距离:该样本的 fishe...原创 2020-04-17 16:57:55 · 3191 阅读 · 2 评论 -
python 聚类分析 k means
下面是一个简单利用 kmeans 聚类分析的例子,数据为某一年全国31个省市的居民消费支出数据:原创 2020-04-04 12:04:32 · 2205 阅读 · 0 评论 -
生成随机数的原理,生成多元分布随机数
如何生成随机数及多元分布的随机数,发现佐治亚理工的一个课件,讲的特别详细,包括多种方法,以及如何生成多元正态分布的随机数:https://www2.isye.gatech.edu/~sman/courses/6644/Module07-RandomVariateGenerationSlides_171116.pdf要是打开速度慢的话,从 csdn 下载:https://download.cs...原创 2020-03-15 14:35:56 · 3299 阅读 · 0 评论 -
spss 系统聚类里的组内连接法
做系统聚类时,spss 提供了好几种定义类距离的方法,其中,组间连接(between groups)就是教科书中的类平均法。组内连接(within groups)一直没找到定义,用谷歌搜索了下,终于找到了一个资料:http://www.norusis.com/pdf/SPC_v13.pdf组内连接的意思是:两个类中所有样品两两之间的距离平方和的均值。而组间连接只计算不同类中样品的距离,同类中样...原创 2020-03-05 18:22:45 · 11279 阅读 · 4 评论 -
经验分布函数 与 bootstrap 方法
当总体分布函数未知时,当样本容量足够大时,可以用经验分布函数替代。经验分布函数的定义为:设 X1X_1X1, X2X_2X2, …, XnX_nXn 为总体分布的一个样本, −∞<x<∞-\infty<x<\infty−∞<x<∞,用 S(x)S(x)S(x) 表示 X1X_1X1, X2X_2X2, …, XnX_nXn 中不大于 xxx 的随机...原创 2020-02-27 12:14:30 · 3567 阅读 · 0 评论 -
Excel 中的协方差阵
Excel 的数据分析可以直接求得样本的协方差阵,但是经过我验证,发现得到的样本协方差阵并不是那个无偏的协方差阵,需要乘以nn−1\frac{n}{n-1}n−1n才是,因为 Excel 中的计算公式为:Σ^=1nA\hat{\Sigma}=\frac{1}{n}AΣ^=n1A其中,A 为样本离差阵,而无偏的样本协方差阵为S=1n−1AS=\frac{1}{n-1}AS=...原创 2020-02-23 15:10:56 · 3010 阅读 · 0 评论 -
计量经济学
入职之前,没有怎么接触过计量经济学,后来见不少同事们的研究基本全用到了计量经济学,才知道还挺有用的,有的学者甚至在 nature 子刊发的论文就是用的计量经济学。计量经济学当然没有统计学难,属于统计学的一个分支,特别适合用来做实证分析。本来可以讲这门课,但我选择讲《多元统计学》,准备自学这个《计量经济学》了。...原创 2020-01-16 22:21:06 · 1123 阅读 · 0 评论 -
使用 python 做线性回归,scipy,statsmodels,sklearn
使用 python 做线性回归分析有好几种方式,主要的分别是 scipy 包,statsmodels 包,以及 sklearn 包。但是,这些包目前都不能处理共线性,即自动剔除部分共线性的变量,需要自己去编函数,这一点不如 spss 或 r 语言。1. 用 scipy 包做线性回归...原创 2019-12-15 21:35:41 · 66170 阅读 · 2 评论 -
多元统计学
安排了下学期讲《多元统计分析》,因为我学过这门课,本来不觉得多么难。然而拿到教材后,才知道理论那么深奥,这门课比高等数学都难。我记得硕士期间学这门课老师对理论部分讲的很简单,讲了一些操作,总体讲的很一般。我自己读了好几本多元统计学的教材,发现这些教材参差不齐,没有一个完美的:要么写的太难,堆了不少高深的矩阵知识上去,有一些理论做统计分析时很少用到,我觉得没啥必要都放到书里面去;要么写的太简略,一...原创 2019-12-06 22:58:47 · 1904 阅读 · 0 评论 -
用 python 做 z 检验,t 检验
文章目录1. z 检验2. t 检验Python 中的假设检验一般用到 scipy 或 statsmodels 包,需要注意的是,这两个包里面各种检验的置信度都是 0.05。1. z 检验对于大样本数据(样本量 ≥\geq≥ 30),或者即使是小样本,但是知道其服从正态分布,并且知道总体分布的方差时,需要用 z 检验。在 python 中,由于 scipy 包没有 z 检验,我们只能用 st...原创 2019-12-03 23:27:56 · 15167 阅读 · 6 评论 -
python 生成随机数的三种方法
1. 使用 random 包生成随机数可以生成均匀分布,高斯分布,(包括正态分布)指数分布,(与泊松分布有区别:泊松分布表示一段时间发生多少次,而指数分布表示两次发生的时间间隔)贝塔分布,韦布尔分布的随机数由此可见,random 包支持的随机分布比较有限,功能较少.例如:(1) 生成 [1, 10] 内的均匀分布随机数random.uniform(1, 10)Out[29]:......原创 2018-09-28 18:05:35 · 145633 阅读 · 5 评论 -
python 计算概率密度、累计分布、逆函数
计算概率分布的相关参数时,一般使用 scipy 包,常用的函数包括以下几个:pdf:连续随机分布的概率密度函数pmf:离散随机分布的概率密度函数cdf:累计分布函数百分位函数(累计分布函数的逆函数)生存函数的逆函数(1 - cdf 的逆函数)函数里面不仅能跟一个数据,还能跟一个数组。下面用正态分布举例说明:>>> import scipy.stats as st...原创 2019-12-03 22:54:53 · 22254 阅读 · 11 评论 -
python 计算众数、中位数、分位数、偏度、峰度
python原创 2019-12-03 22:50:52 · 31464 阅读 · 3 评论 -
Kolmogorov-Smirnov 检验 与 卡方检验
1. Kolmogorov-Smirnov 检验在检验一个样本是否服从既定的分布时,或者检验两个样本是否来自同一个分布时,可以用 Kolmogorov-Smirnov 检验,简称 KS 检验。该检验被归为非参数检验(非参数检验是在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法),而 参数检验是在总体分布已知的情况下,对总体分布的均值或方差等进行检验。2. χ2\c...原创 2019-11-16 18:45:10 · 10466 阅读 · 0 评论 -
协方差矩阵
多元统计分析中,协方差矩阵比较重要,它研究多个变量的关系。设随机向量 X\bf XX,它包括多个变量 X1X_1X1, X2X_2X2, …, XnX_nXn,即X=(X1X2⋮Xn)\bf{X}=\left(\begin{array}{c}X_1\\X_2\\\vdots\\X_n\end{array}\right)X=⎝⎜⎜⎜⎛X1X2⋮Xn⎠⎟⎟⎟⎞...原创 2019-10-31 23:28:16 · 4621 阅读 · 5 评论