机器学习
野孩子1991
热爱所以不放弃
展开
-
最大似然
最小二乘法 思想是 求欧式距离最小值。 即求出一条线,样本距离这条线的和最小。最大似然符和高斯分布时,和最小二乘法的结果一样。最大似然是站在概率上考虑的,推导出一个概率函数表示目标函数,它希望这个概率函数 越大越好。最大似然中心思想,假设拿出来的样本数据有很大的参考性,用这个样本数据反推“导致”这个结果的参数。原创 2018-02-26 11:20:58 · 410 阅读 · 1 评论 -
机器学习经典之PCA的数学原理(很值得读)
PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么。当然我并不打算把文章写成转载 2016-08-28 17:47:20 · 3285 阅读 · 1 评论 -
朴素贝叶斯(一)
朴素贝叶斯(Naive Bayes)是一种简单的分类算法,它的经典应用案例为人所熟知:文本分类(如垃圾邮件过滤)。总结1、朴素贝叶斯有个前提的假设:每个条件(属性)互相之间是独立的。2、最初公式的分母是一个常数,忽略不计。3、在做词分类时,考虑到词很多需要做大量的乘法会影响效率,再者小数的乘法会越乘越小导致数据很小丢失数据,因此对最终的公式做ln处理,不影响单调性,把乘法转换成加法。4、为了防止在...原创 2018-02-28 14:18:46 · 2426 阅读 · 0 评论 -
朴素贝叶斯(二)实现NBCorpus分类(附代码和数据)
理论可参考 :朴素贝叶斯(一)公式:(P(x)为常数,可忽略不考虑)平滑:Nyk是类别为yk的样本个数,n是特征的维数,Nyk,xi是类别为yk的样本中,第i维特征的值是xi的样本个数,α是平滑值。在对NBCorpus词分类时,带入上面的公式可得:某词属于某类别的概率 = (该类别该词的个数 + 1/ 该类别词的总数 + 所有类别所有不重复单词总数) ×(该类别样本个数 / 所有类别总样本个数)...原创 2018-02-28 14:37:54 · 1090 阅读 · 1 评论