数学理论
文章平均质量分 80
风风雨雨中寻觅
平平淡淡,简简单单,取长补短,修炼身心
展开
-
中心极限定理+拉普拉斯定理+大数定理+切比雪夫不等式
2018.08.19更新1.中心极限定理:大量独立随机变量的和经过适当标准化后趋近于正态分布,这与变量的原分布无关,有独立同分布的中心极限定理和独立不同分布的中心极限定理2.独立同分布的中心极限定理:设随机变量X1,X2,...Xn独立同分布,且具有有限的数学期望和方差,E(Xi)=µ,D(Xi)=σ^2,则满足当n很大时,近似服从标准正态分布N(0,1),即服从N(nµ,nσ...原创 2018-07-23 16:36:06 · 14817 阅读 · 0 评论 -
相关性分析与余弦距离
1.pearson相关系数两个连续变量间呈线性相关时(两变量需服从正态分布),使用pearson积差相关系数,不满足积差相关分析适用条件时,使用spearman秩相关系数描述2.spearman秩相关系数spearman相关系数又称秩相关系数,是利用两变量秩次大小作线性相关分析(依据两列成对等级等级数之差来计算,所以又称等级差数法),对原始变量分布不作要求属非参数统计方法,适用范围...原创 2019-03-26 20:36:48 · 2029 阅读 · 0 评论 -
随机森林模型详解
1.定义决策树+bagging=随机森林,随机森林是一种比较新的机器学习模型(非线性基于树的模型)集成学习方法。上世纪八十年代Breiman等人发明分类树算法,通过反复二分数据进行分类或回归,计算量大大降低,2001年Breiman把分类树组合成随机森林,即在变量(列)的使用和数据(行)的使用上进行随机化,生成很多分类树,再汇总分类树结果。随机森林在运算量没有显著提高前提下提高了预测精度,随机...原创 2019-03-17 21:43:57 · 88617 阅读 · 8 评论 -
IV及WOE值详解-附R源码实现
1.IV值用途IV全称Information Value即信息价值或信息量。在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如有200个候选自变量,通常情况下不会直接把200个变量直接放到模型中去进行拟合训练,而会用一些方法从200个自变量中挑选一些放进模型,形成入模变量列表。挑选入模变量过程需要考虑的因素有很多,比如变量预测能力、变量间相关性、变量简单性(容易生成使...原创 2019-01-16 20:51:22 · 3539 阅读 · 0 评论 -
熵值法解析-附R代码
熵的概念源于热力学,是对系统状态不确定性的一种度量。在信息论中,信息是系统有序程度的一种度量,而熵是系统无序程度的一种度量,两者绝对值相等,但符号相反。根据此性质可利用评价中各方案的固有信息,通过熵值法得到各个指标信息熵,熵值越小-无序程度越低-指标权重越小熵是不确定性的度量(可用于判断一个事件的随机性+无序程度),如果用表示第j个信息的不确定性程度,则整个信息(设有n个)的不确定性度量可以...原创 2019-01-15 17:41:51 · 11036 阅读 · 7 评论 -
GBDT梯度提升决策树-理清每个细节-附Python代码
2019-01-14修改部分文字内容,增强理解 2019-01-17修改章节4.提升树算法与负梯度拟合,章节5.梯度提升回归树算法,更改公式、加注释使其更加容易理解 增加章节2.GBDT优缺点,6.梯度提升分类树算法1.GBDT概念以决策树为基学习器的集成学习算法具有预测精度高的优势,树的集成算法主要有随机森林和GBDT。随机森林具有很好的抗过...原创 2018-12-25 20:25:45 · 8617 阅读 · 0 评论 -
决策树算法-理清每个细节-附R+Python代码
2018-12-20更新,新增内容2019-01-14更新,对信息熵-信息增益章节中部分文字进行修订一.决策树概念在计算机科学中,树是一种重要数据结构,比如二叉查找树、红黑树等,通过引入“树”数据结构,可以很快缩小数据规模,实现高效查找。一般情况面对的样本通常具有很多特征,对事务的判断不能只从一个角度出发,决策树的思想是先从一个特征入手,通过这次分类使问题规模缩小,同时分类后的子集相比...原创 2018-12-19 20:53:20 · 5303 阅读 · 2 评论 -
假设检验-单样本泊松分布总体的发生率检验
传送:随机变量概率分布函数汇总-离散型分布+连续型分布 假设检验-KS检验 假设检验-W检验 假设检验-单样本t检验 假设检验-两服从正态分布的独立总体均值检验单样本泊松分布总体的发生率检验是对泊松分布的速率参数λ或两个速率参数之间的比率进行的精准测试poisson.test(x, T...原创 2018-09-17 12:08:10 · 5105 阅读 · 0 评论 -
假设检验-单样本比率检验(二项分布)
1.比率的二项分布检验-适用于样本量较小(n<30)的检验-精确binom.test(x,n,p=0.5,alternative="two.sided",conf.level=0.95)#n是样本总数,x是具有某种特征的样本数,p为原假设的概率值2.中位数符号检验,以中位数将数据分成两边(一边为正,一边为负),那么样本出现在两边的概率均为1/2,因此使用p=0.5的二项分布...原创 2018-09-16 23:22:29 · 11456 阅读 · 0 评论 -
假设检验-方差齐性检验
传送:随机变量概率分布函数汇总-离散型分布+连续型分布 假设检验-KS检验 假设检验-W检验 假设检验-单样本t检验 假设检验-两服从正态分布的独立总体均值检验一、单样本方差检验-需服从正态分布 chisq.var.test=function(x,var,mu=Inf,altern...原创 2018-09-16 22:35:07 · 14283 阅读 · 0 评论 -
假设检验-两服从正态分布的独立总体均值检验
传送:随机变量概率分布函数汇总-离散型分布+连续型分布关注的结果变量为连续型组间比较(两组数据必须是独立的),并假设其呈现正态分布。首先判断是否为正态分布qqnorm(x1);qqline(x1)传送:假设检验-KS检验传送:假设检验-W检验传送:假设检验-单样本t检验假设条件:X,Y是两个独立的正态总体,,X1,X2...Xn是来自X的样本,Y1,Y2...Yn是来自Y的样本...原创 2018-08-29 10:35:08 · 15499 阅读 · 1 评论 -
假设检验-单样本t检验
传送:随机变量概率分布函数汇总-离散型分布+连续型分布检验样本需服从或近似服从正态分布,或满足中心极限定理的条件(柯西分布(即自由度=1的t分布)期望与方差均不存在,如从柯西分布中取的样本再多也不会符合平均值近似服从于标准正态分布的结论)1.当已知时,z.test计算检验统计量可根据独立同分布的中心极限定理得到,然后计算对应的P值#x为数值向量,sigma-标准差z.test=fu...原创 2018-08-28 20:56:14 · 2310 阅读 · 0 评论 -
假设检验-W检验
传送:随机变量概率分布函数汇总-离散型分布+连续型分布W检验全称为shapiro-wilk正态检验-属于非参数检验,用来检验数据是否符合正态分布,与线性回归方法相同,检验其与回归曲线的残差,该方法在样本量较小时使用(样本容量3-50)检验步骤:1.将数据按数值大小从新排列,使得X1≤X2...≤Xn;2.计算分母;3.查表得a值;4.计算W;5.若W值小于判断界限值Wa(查表),则拒绝...原创 2018-08-28 20:35:07 · 8621 阅读 · 0 评论 -
假设检验-KS检验
传送:随机变量概率分布函数汇总-离散型分布+连续型分布KS(Kolmogorov-Smirnow)是一种非参数的统计检验方法(是针对连续分布的检验)。这种检测常被用来应用于比较单样本是否符合某个已知分布(将样本数据的累计频数分布与特定理论分布相比较,如果两者间差距较小,则推断该样本取自某特定分布簇),双样本的KS检测比较两个数据集的累积分布(连续分布间的相似性)KS检验与卡方检验相比(都采...原创 2018-08-27 17:13:08 · 16211 阅读 · 1 评论 -
基于Negative Sampling的word2vec模型原理
传送:Word2Vec词嵌入向量延伸-原理剖析 基于Hierarchical Softmax的word2vec模型原理1.基于Negative Sampling的梯度计算Negative Sampling摒弃了霍夫曼树,采用负采样的方法求解(对生僻词的迭代求解进行运算优化)。训练样本中w表示中心词(是正例),周围上下文共2c个词context(w),通过Negati...原创 2018-07-30 13:58:33 · 768 阅读 · 0 评论 -
基于Hierarchical Softmax的word2vec模型原理
传送:Word2Vec词嵌入向量延伸-原理剖析 基于Negative Sampling的word2vec模型原理1.基于Hierarchical Softmax的梯度计算与神经网路语言模型相比,霍夫曼树的所有内部节点类似神经网络隐藏层的神经元,根节点对应投影后的词向量,叶子节点类似神经网络输出softmax层的神经元,叶子节点的个数是词汇表大小。在霍夫曼树中,隐...原创 2018-07-30 11:58:29 · 2124 阅读 · 0 评论 -
随机变量概率分布函数汇总-离散型分布+连续型分布
2018.08.18-更新概率分布用以表达随机变量取值的概率规律,根据随机变量所属类型的不同,概率分布取不同的表现形式离散型分布:二项分布、多项分布、伯努利分布、泊松分布连续型分布:均匀分布、正态分布、指数分布、伽玛分布、偏态分布、贝塔分布、威布尔分布、卡方分布、F分布连续型随机变量:若随机变量X的分布函数F(X)可以表示为一个非负可积函数f(x)的积分,则称X为连续型随机变量,f...原创 2018-07-19 14:25:20 · 48060 阅读 · 0 评论 -
R语言中的数学运算-最全总结+解惑
2019.09.10更新,新增一阶导数、二阶导数和偏导数计算一、算术运算符^或** 乘方,求幂值A%%B 取余,模运算A%/%B 整数除法== 严格等于,判断是否相等!x 不等于xx|y 或,&或|比较两个向量的所有元素x&y 与sign() 判断正负&&或|| 逻辑计算操作,只比较两个向量的第一个元素...原创 2018-07-23 19:27:26 · 43995 阅读 · 5 评论 -
方差分析
将要检验的对象称为因素或因子,因素或因子的不同表现称为水平,每个因子水平下得到的样本数据称为观测值。方差分析关注的是三个或更多总体的均值是否相等的问题基本假设:1.正态假设(W检验),因素每个水平的观测值样本都来自正态总体;2.方差齐性假设(多样本bartlett检验),各个总体分布的方差相同;3.独立假设,观测值之间相互独立bartlett.test(x,g,...)#x-数据向...原创 2019-04-17 10:04:55 · 2037 阅读 · 0 评论