机器学习
linluyisb
管理个人博客太麻烦, 回来csdn写点东西
展开
-
决策树算法解析---ID3,C4.5
一:虽然网上已经有了很多的关于决策树的文章,自己也反复的看了不少遍,但是过了一段时间又觉得比较模糊,因此自己打算来写一篇,自己着重强调物理意义,增加自己的理解。文章末尾会给出参考链接二:决策树首先是基于信息论的,信息熵的增益来作为决策。因此首先我来描述一些信息论中的知识。1)自信息量:在收到ai之前,接受者对信源发出ai的不确定性定义为信息符号ai的自信息量原创 2013-07-16 17:18:27 · 1799 阅读 · 0 评论 -
奇异值分解SVD原理探讨
一:前言 写在前面,因为涉及到公式,选择了以图片的方式发。内容都是个人的一些理解,借鉴了网上的很多资料,因为太多,而且是几个月前写下的,这里实在没法一一列举参考文献了。 理解SVD的一些要点知识。1)矩阵本身的意义 2)矩阵乘法的意义原创 2015-01-15 18:20:36 · 1695 阅读 · 0 评论 -
文本分类小结
一:特征提取文本分类中一个重要的工作部分就是特征提取。常见的特征词提取方法有卡方,信息增益,信息增益比,期望KL距离等。链接http://blog.csdn.net/fighting_one_piece/article/details/37912051,这篇博客讲的十分详细,就不重复写了。不同的特征提取方法,会有自己的特点,用不同的分类的方法,效果也不一样,不能一概而论(遇到过数据集特征提原创 2015-02-13 11:25:10 · 1666 阅读 · 0 评论 -
文本特征提取
前言@(NLP)[IG,X2,CE] TF-IDF可以有效的评估一个字词对于一个文件集或一个语料库的重要程度。但在文本分类中,它的区分度不够,没有考虑特征词在类间的分布。也就是选择特征应该在某类出现多,而其它类出现少。也没有考虑特征词在类内部文档的分布情况,如果特征词均匀分布在其中,则这个特征词能够很好的代表这个类的特征。 特征提取的目的在于降维。卡方特征提取卡方检验最基本的思想是通过观察实际值原创 2015-03-31 16:34:22 · 1472 阅读 · 0 评论