数学理论
文章平均质量分 67
绿岛小微米
每天进步一点点
展开
-
梯度下降法
梯度下降法,无约束最优化方法之一,在线性回归中应用广泛,并且已经有很多改进版本,先介绍最古老最简单的梯度下降,其次还有批量梯度下降法,随机梯度下降法等等。梯度下降(上升)法 顾名思义,梯度下降,就如同下坡一样,找一个方向,一步一步地向下走,直到我们下到坡底,这个坡底就是我们的目标点,也就是我们要找的最低点,可怎么找到每一步的方向,使我们可以尽可能的少走‘弯路’呢?可以通过求每原创 2017-04-08 10:04:14 · 227 阅读 · 0 评论 -
标准化和归一化
*****************************归一化*******************************1)把数据变成(0,1)之间的小数2)把有量纲表达式变成无量纲表达式 归一化算法有:1.线性转换 y=(x-MinValue)/(MaxValue-MinValue2.对数函数转换: y=log10(x)3.反余切函转载 2017-04-20 09:51:37 · 2122 阅读 · 1 评论 -
机器学习特征选择方法
有一句话这么说,特征决定上限,模型逼近上限。特征选择对后面的模型训练很重要,选择合适重要的特征,对问题求解尤为重要,下面介绍一些常见的特征选择方法。通常来说,从两个方面考虑来选择特征:特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择原创 2017-04-20 10:16:30 · 2135 阅读 · 0 评论 -
python-enumerate枚举函数
enumerate 函数用于遍历序列中的元素以及它们的下标:>>> for i,j in enumerate(('a','b','c')): print i,j0 a1 b2 c>>> for i,j in enumerate([1,2,3]): print i,j0 11 22 3>>> for i,j in enumera转载 2017-04-20 14:25:59 · 6077 阅读 · 0 评论 -
方差分析
方差分析(Analysis of Variance,简称ANOVA),又称“变异数分析”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。 由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量.转载 2017-04-17 08:30:26 · 4019 阅读 · 0 评论 -
聚类算法-K-means
**********************K-means算法****************************步骤:1.从训练数据中随机选取k个初始点,作为k个初始簇的中心点2.计算每个点到中心点的欧式距离,将其归并到距离最近的簇中,直至所有点划分完成3.计算每个簇新的中心点4.如果相对于原来中心点没有变化或者变化数值小于给定阈值,则算法结束,获得k个簇,否则以计算出的原创 2017-04-14 14:40:08 · 7918 阅读 · 1 评论 -
大数定律
什么是大数定律 大数定律是指在随机试验中,每次出现的结果不同,但是大量重复试验出现的结果的平均值却几乎总是接近于某个确定的值。 其原因是,在大量的观察试验中,个别的、偶然的因素影响而产生的差异将会相互抵消,从而使现象的必然规律性显示出来。例如,观察个别或少数家庭的婴儿出生情况,发现有的生男,有的生女,没有一定的规律性,但是通过大量的观察就会发现,男婴和女婴占婴儿总数的比重均转载 2017-05-03 10:40:49 · 9115 阅读 · 0 评论 -
GBDT(生)
转自:http://blog.csdn.net/w28971023/article/details/8240756 GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被转载 2017-04-16 09:15:59 · 497 阅读 · 0 评论 -
zsore和经验法则(统计学原理)
正态分布:z score和经验法则其中以对称的μ为中心,±σ范围的概率是68.3%。也就是说z=(x-μ)/σ在范围(-1,1)内,概率为68.3%。也就是说z在范围(-1,1)内,概率为68.3%。所谓的经验法则(Empirical Rule),也成为68-95-99.7法则,即以μ为中心,落在μ±σ的概率为68%,落在μ±2σ的概率为95%,落在μ±3σ的概率为转载 2017-05-14 10:41:21 · 9382 阅读 · 0 评论 -
层次聚类算法
层次聚类的基本概念 层次聚类方法是古老而且常用的聚类方法。层次聚类方法又有两种产生层次聚类的基本方法。凝聚的:该方法是自底向上的方法,初始每个对象看做一个簇,每一步合并最相近的簇,最终形成一个簇。分类的:该方法是自顶向下的方法,从包含的所有点的簇开始,每一步分裂一个簇,知道仅剩下单点的簇。2 簇之间的邻近性在凝聚的层次聚类方法中,需要定义簇之间的相近性。有许多凝聚层次的转载 2017-04-23 21:59:48 · 7252 阅读 · 0 评论 -
机器学习&数据挖掘精华集锦
原文地址:http://www.cnblogs.com/tornadomeet/p/3395593.html朴素贝叶斯: 有以下几个地方需要注意: 1. 如果给出的特征向量长度可能不同,这是需要归一化为通长度的向量(这里以文本分类为例),比如说是句子单词的话,则长度为整个词汇量的长度,对应位置是该单词出现的次数。 2. 计算公式如下:转载 2017-04-23 22:00:53 · 501 阅读 · 0 评论 -
中心极限定理以及其和大数定律的区别
一.中心极限定理下图形象的说明了中心极限定理当样本量N逐渐趋于无穷大时,N个抽样样本的均值的频数逐渐趋于正态分布,其对原总体的分布不做任何要求,意味着无论总体是什么分布,其抽样样本的均值的频数的分布都随着抽样数的增多而趋于正态分布,如上图,这个正态分布的u会越来越逼近总体均值,并且其方差满足a^2/n,a为总体的标准差,注意抽样样本要多次抽取,一个容量为N的抽样样本是无法构成分布的转载 2017-05-15 09:44:09 · 45095 阅读 · 1 评论 -
机器学习算法优缺点总结
******决策树*******1.决策树优点1、决策树易于理解和解释,可以可视化分析,容易提取出规则。2、可以同时处理标称型和数值型数据。3、测试数据集时,运行速度比较快。4、决策树可以很好的扩展到大型数据库中,同时它的大小独立于数据库大小。2.决策树缺点1、对缺失数据处理比较困难。2、容易出现过拟合问题。3、忽略数据集中属转载 2017-04-24 17:16:00 · 1497 阅读 · 0 评论 -
牛顿法
预备知识 泰勒公式 : f(x) = f(x0)(x-x0)^0/0! + f'(x0)(x-x0)^1/1! + f''(x0)(x-x0)^2/2! + ... + Rn(x)先举例求解f(x) = 0这个方程,可以用一阶泰勒展开,同时省略最高次项,得到f(x) = f(x0) + f'(x0)(x-x0), f(x) = 0 即近似 f(x0) + f'(x0)(x-x0原创 2017-04-06 09:49:57 · 263 阅读 · 0 评论 -
常见损失函数
转自:http://blog.csdn.net/shenxiaoming77/article/details/51614601损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构风险函数重要组成部分。模型的结构风险函转载 2017-05-08 09:21:36 · 8292 阅读 · 0 评论 -
二分类模型评价指标-AUC
***********************************AUC的含义和计算****************************************AUC针对二分类模型效果进行评价,二分类模型有时可能得到的是一个概率值,这个概率值表明为(0或1类)的可能性(不同于决策树分类,我们会直接得到一个确切分类),我们划定一个具体概率值p,大于则为正,小于则为负,然后使用acc或其他原创 2017-04-20 08:27:28 · 5059 阅读 · 0 评论 -
推荐算法
推荐算法种类繁多,分支很多,创新性强,往往一个算法能分支创新出很多新的推荐算法,下图给出了几种有代表性的推荐算法,并在后面做详细解释。******************************协同过滤算法***********************************************1. 协同过滤的简介 关于协同过滤的一个最经典转载 2017-04-16 09:35:57 · 673 阅读 · 0 评论 -
相关分析
相关分析,顾名思义,研究变量间是否存在依存关系,并对这种关系进行度量,具体分类有线性相关分析,偏相关分析,距离分析,重点介绍线性相关分析****线性相关分析****①Pearson相关系数(要求变量服从正态分布)公式:,注意在这里说明一下协方差cov(X,Y),,大于0说明正相关,小于0说明负相关,协方差反应两个随机变量的相关程度(即指两个变量变化方向,正相关说明X变大Y跟原创 2017-04-08 19:42:29 · 1250 阅读 · 0 评论 -
卡方检验思想及其应用
卡方检验是以χ2分布为基础的一种常用假设检验方法,它的无效假设H0是:观察频数与期望频数没有差别。 该检验的基本思想是:首先假设H0成立,基于此前提计算出χ2值,它表示观察值与理论值之间的偏离程度。根据χ2分布及自由度可以确定在H0假设成立的情况下获得当前统计量及更极端情况的概率P。如果当前统计量大于P值,说明观察值与理论值偏离程度太大,应当拒绝无效假设,表示比较资料之间有显著差异;原创 2017-04-09 08:25:59 · 34964 阅读 · 2 评论 -
插值法-解决数据预处理中的缺失
****拉格朗日插值法****在平面上有 共n个点,现作一条函数 使其图像经过这n个点。作法:作n个多项式 。对于第j个多项式 ,及其角标集 ,构造 是n-1次多项式,且满足 并且 。最后可得 。形如上式的插值多项式 称为拉格朗日(Lag转载 2017-04-09 17:37:46 · 4663 阅读 · 0 评论 -
假设检验
原理:小概率原理,即认为如果一个事件概率很小,那么再一次试验中,这个事件是‘不会发生的’,或者说几乎不可能发生,再运用反证法上的思想,提出一个原假设和一个与其互斥的备择假设,我们假设原假设已经发生了,再去证明他是一个小概率事件,就能说明这个原假设是‘有问题的’,从而拒绝它,但也不能说就‘接受’备择假设,因为小概率事件也是有可能发生的。步骤:①先提出原假设和备择假设原创 2017-04-12 08:35:13 · 704 阅读 · 0 评论 -
L1,L2正则化
正则化引入的思想其实和奥卡姆剃刀原理很相像,奥卡姆剃刀原理:切勿浪费较多东西,去做,用较少的东西,同样可以做好的事情。正则化的目的:避免出现过拟合(over-fitting)经验风险最小化 + 正则化项 = 结构风险最小化经验风险最小化(ERM),是为了让拟合的误差足够小,即:对训练数据的预测误差很小。但是,我们学习得到的模型,当然是希望对未知数据有很好的预测能力(泛化能力原创 2017-04-11 14:24:10 · 755 阅读 · 0 评论 -
Logistic Regression
***********二项逻辑斯蒂分布******************二项逻辑斯蒂回归模型是一种分类模型,由条件概率分布P(Y|X)表示,形式为参数化的逻辑斯蒂分布(关于逻辑斯蒂分布以及概率分布的基础知识请看本文附录)。这里,随机变量X取值为实数,随机变量Y取值为1或0。二项逻辑斯蒂回归模型是如下的条件概率分布: 对于给定的输入实例x,按照上式可以求得P(Y=1|x)和P(Y转载 2017-04-12 16:25:05 · 242 阅读 · 0 评论 -
决策树-Cart生成和剪枝算法
***************CART算法概述********************** Cart算法类似于ID3算法,其将特征分类为按GINI系数,找到该特征下的一个最优节点进行分类,该特征被分为2个类别,比如一个类别中有{学生,老师,工人},则选择分裂节点可能为学生,老师或工人,得到的结果就可能有[{学生},{老师,工人}],[{老师},{学生,工人}],[{工人},{老师,学生}],转载 2017-04-13 10:32:41 · 2747 阅读 · 0 评论 -
EM算法(生)
em算法 最大期望算法(Expectation Maximization Algorithm,又译期望最大化算法),是一种迭代算法,用于含有隐变量(latent variable)的概率参数模型的最大似然估计或极大后验概率估计EM算法在统计计算中,最大期望(EM)算法是在概率(probabilistic)模型中寻找参数最大似然估计或者最大后验估计的算法,转载 2017-04-17 10:47:27 · 521 阅读 · 0 评论 -
支持向量机SVM(生)
*********************支持向量机的通俗解释************************支持向量机是用来解决分类问题的。先考虑最简单的情况,豌豆和米粒,用晒子很快可以分开,小颗粒漏下去,大颗粒保留。用一个函数来表示就是当直径d大于某个值D,就判定为豌豆,小于某个值就是米粒。d>D, 豌豆d在数轴上就是在d左边就是米粒,右边就是绿豆,这是一维转载 2017-04-15 09:05:47 · 215 阅读 · 0 评论 -
LDA(生)
***********************示例**************************LDA要干的事情简单来说就是为一堆文档进行聚类(所以是非监督学习),一种topic就是一类,要聚成的topic数目是事先指定的。聚类的结果是一个概率,而不是布尔型的100%属于某个类。国外有个博客[1]上有一个清晰的例子,直接引用:Suppose you have the follow转载 2017-04-18 09:17:44 · 531 阅读 · 0 评论 -
FPgrowth
************************FPgrowth概述和apirior的比较********************************* 频繁项集挖掘算法用于挖掘经常一起出现的item集合(称为频繁项集),通过挖掘出这些频繁项集,当在一个事务中出现频繁项集的其中一个item,则可以把该频繁项集的其他item作为推荐。比如经典的购物篮分析中啤酒、尿布故事,啤酒转载 2017-04-18 10:05:41 · 1028 阅读 · 0 评论 -
Bagging and Boosting 概念和区别
Bagging和Boosting 概念及区别 Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来,形成一个性能更加强大的分类器,更准确的说这是一种分类算法的组装方法。即将弱分类器组装成强分类器的方法。首先介绍Bootstraping,即自助法:它是一种有放回的抽样方法(可能抽到重复的样本)。1、Bagging (bootstrap aggr转载 2017-04-18 10:29:05 · 2811 阅读 · 0 评论 -
随机森林
*********************随机森林概述***************************在我们学习随机森林前,要对决策树有一定了解,尤其对其中决策树生成算法要做理解,详见博客。森林顾名思义,由很多棵树组成,这一颗颗树就是我们需要构造的决策树,由这些树组成的森林就是随机森林,当我们输入一个要预测分类的数据时,每个决策树都会接收数据并产生一个分类结果,然后采用‘投票机制原创 2017-04-14 08:49:32 · 1673 阅读 · 0 评论 -
线性分类器和非线性分类器
***********************线性和非线性的区别********************************1. 线性linear,指量与量之间按比例、成直线的关系,在数学上可以理解为一阶导数为常数的函数; 非线性non-linear则指不按比例、不成直线的关系,一阶导数不为常数。2. 线性的可以认为是1次曲线,比如y=ax+b ,即成一条直线转载 2017-04-15 09:23:22 · 18948 阅读 · 0 评论