机器学习/数据挖掘
文章平均质量分 75
fanf_zhang
这个作者很懒,什么都没留下…
展开
-
线性鉴别分析LDA
学习了LDA算法,做个总结,如果有错误,还望指教!LDA的目标应用统计方法解决模式识别问题时,一再碰到的问题之一是维数问题。[1]LDA的目标即是通过投影从高维样本中抽取分类信息、降低维数,使投影后的样本有最大的类间距离和最小的类内距离。将d维样本变换为1维样本所用的方法:其中,w,x为n维列向量。如果||w||=1,则每个yn就是想对应的xn到方向为w的直线上的投影。原创 2015-10-07 21:19:05 · 761 阅读 · 0 评论 -
机器学习推导—算法SVM
由于在为知笔记里使用markdown+LaTex写的笔记,直接复制到CSDN里不能显示图片,公式渲染不正确。所以我只能导出成图片上传上来,但导出的图片有一些断层,不影响正常阅读。心塞塞。 想自己搭一个支持为知笔记导出的博客,但又嫌太耗费精力。哪位朋友有较好的解决方法,请联系我!原创 2016-08-25 15:11:51 · 701 阅读 · 0 评论 -
EM算法解决GMM问题
高斯混合模型高斯混合模型是几个高斯成分的简单线性叠加,可以提供比单高斯更加丰富的密度模型。 高斯模型的形式: 这就表示此模型是由K个高斯分布线性叠加而成。高斯混合模型公式的推导引入一个K维的二进制随机变量z,其中只有一个元素zkz_k为1,其他元素都为0。因此zkz_k的值满足zk∈0,1z_k\in{0,1}并且∑kzk=1\sum_k z_k=1。通过哪个元素不为0,可以看出向量z有K种原创 2015-11-22 20:52:47 · 1981 阅读 · 0 评论 -
机器学习实战之决策树
理论基础:信息论1. 熵(entropy)H(S)用来测量一个数据集S的不确定程度。 H(S)=−∑x∈Xp(x)log2p(x)H(S)=-\sum_{x\in X}p(x)log_2p(x) - SS-待计算熵的数据集,在ID3算法的每次迭代中会改变 - X -S中类别的集合 - p(x)p(x) -属于类别x的元素站集合S中总元素的比例 H(S)=0H(S)=0,集合SS被原创 2016-08-25 15:24:29 · 368 阅读 · 0 评论 -
机器学习实战之KMean
KMeans算法步骤: 1. 确定聚类个数k 2. 随机选择k个质心 3. 对于所有样本点: 根据样本点到质心的距离分类 4. 分类完成后,如果所有样本点的类别没有变化,算法结束 如果有变化,重新计算质心(当前类中样本的平均值),回到步骤3几个问题: 1. 聚类个数k的确定 2. 初始时质心的选取 3. 容易出现局部最优解考虑在多维空间中将数据点分组/聚类的问题。假设有一个数原创 2016-08-25 15:23:58 · 729 阅读 · 0 评论 -
机器学习实战之CART
理论CART(Classification and Regression Tree)是决策树的一种。 决策树是每次以某个属性为准,将数据集划分为几个类,最终数据集中的元素都被划分到相应的类中。典型的决策树算法是ID3。ID3与CART不同之处:ID3生成的决策树是n叉树,CART是二叉树;两种算法在每次迭代时都需要寻找最优的划分属性,不同的是,ID3用来度量划分是否为优的准则是:信息增益(Info原创 2016-08-25 15:23:31 · 1159 阅读 · 0 评论 -
关联分析之Apriori学习笔记
关联分析(Association analysis)简介大量数据中隐藏的关系可以以‘关联规则’和‘频繁项集’的形式表示。rules:{Diapers}–>{Beer}说明两者之间有很强的关系,购买Diapers的消费者通常会购买Beer。 除了应用在市场篮子数据(market basket data)中,关联分析(association analysis)也可以应用在其他领域像bioinfomat原创 2016-08-25 15:21:25 · 6075 阅读 · 1 评论 -
mrjob运行runner参数
本地测试在本地测试作业python your_mrjob_sub_class.py <log_file >output 此脚本会使用InlineMRJobRunner自动调用自身运行各个步骤。如果要更接近Hadoop,可以使用--runner=local,这个参数不会将你当前的工作目录加到PYTHONPATH,而是设置一些Hadoop环境变量,使用多个子处理器来处理任务。 也可以使用参数--ma原创 2016-08-25 15:02:34 · 2192 阅读 · 1 评论 -
mrjob运行方式
翻译自http://pythonhosted.org/mrjob/guides/runners.html运行本地测试python my_mrjob.py < test.txt >output 以上脚本会使用InlineMRJobRunner自动运行文件中的步骤。使用--runner=local可以更接近模拟Hadoop,这种方式不会将工作目录添加到PYTHONPATH,而是设置几个Hadoop环境原创 2016-08-25 15:01:54 · 1313 阅读 · 0 评论 -
AdaBoost
adaboost简介adaboost算法是将一系列弱分类器组合成一个强分类器的算法。所谓弱分类器是指识别错误率小于1/2,即准确率仅比随机猜测略高的学习算法。强分类器是指识别准确率很高并能在多项式时间内完成的学习算法。1 Adaboost算法依次训练弱分类器,赋予错误率低的分类器高权值,错误率高的分类器低权值,使得准确性高的分类器获得更高的‘话语权’,从而构造出一个强分类器。 可以想到,Adab原创 2016-08-25 14:55:12 · 2357 阅读 · 0 评论 -
字典学习方法—K-SVD
三天学习了K-SVD方法,做个小结,但自己理解不是特别透彻,主要为对文献的翻译,一起学习吧。 由于编辑器使用起来太费时间,我直接上word里的截图了。 下面附上从csdn下载的K-SVD代码,里面的OMP函数是需要自己实现的。 http://pan.baidu.com/s/11BiUE上截图是不是太奇葩了,可CSDN这个编辑器我真的用不习惯,想和大家交流学习,如果能导入word文档了就好了。原创 2015-10-03 14:49:51 · 1969 阅读 · 1 评论 -
EM算法推导
忘了用了几天的时间来学习EM算法、GMM,学习老师的语音识别程序,先看老师的PPT(简单介绍EM算法和GMM,MFCC的步骤),源代码(刚开始看的时候完全不懂),然后在网上搜索了MFCC方法,通过博客和别人的文档学习GMM,EM算法,又去看了PRLM这本书的第九章(关于GMM和EM的),现在感觉还是似懂非懂,主要是推到过程不清楚加上没有程序实现。可能是我的学习方法有问题。可以和同学多交流,向别人请教原创 2015-11-22 15:37:23 · 2068 阅读 · 0 评论 -
pandas索引和选择数据
使用pandas索引和选择数据时,总是需要百度,因此决定对pandas.DataFrame中的索引和选择方法做个总结。所用的pandas版本号为0.20.1 pandas中有三种索引方法:.loc,.iloc和[],注意:.ix的用法在0.20.0中已经不建议使用了!.loc用法iloc用法切片操作[]下文中全部使用一个DataFrame来举例: .loc用法...原创 2018-04-10 10:36:02 · 108908 阅读 · 3 评论