![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 89
liu_zhlai
这个作者很懒,什么都没留下…
展开
-
条件随机场(CRF)— 绪论
条件随机场是一个非常重要的序列标注模型,在中文切词,词性标注,命名实体识别等自然语言处理场景下得到广泛应用,并且取得了相当不错的效果,目前比较流行的开源中文自然语言处理工具FuDanNLP就通过crf实现分词,实体识别等功能(C++实现的中科院分词工具ICTCLAS,python实现的结巴分词都使用的隐马模型,可见序列标注模型在分词领域有明显优势,至于这两个为什么没使用crf,我觉得可能是HMM更原创 2016-07-29 04:15:12 · 535 阅读 · 0 评论 -
特征选择方法之TF-IDF、DF
TF_IDF, DF都是通过简单的统计来选择特征,因此把它们放在一块介绍 1、TF-IDF 单词权重最为有效的实现方法就是TF*IDF, 它是由Salton在1988 年提出的。其中TF 称为词频, 用于计算该词描述文档内容的能力; IDF 称为反文档频率, 用于计算该词区分文档的能力。TF*IDF 的指导思想建立在这样一条基本假设之上: 在一个文本中出现很多次的单词, 在转载 2016-12-08 08:12:51 · 19757 阅读 · 0 评论 -
特征选择方法之期望交叉熵
本文转自:http://blog.csdn.net/fighting_one_piece/article/details/38562183 期望交叉熵也称为KL距离,反映的是文本类别的概率分布和在出现了某个特征的条件下文本类别的概率分布之间的距离,具体公式表示如下 其中, P(t)表示特征t在文本中出现的概率, P(ci)表示ci类文本在文本集中出现的概率, P(ci|t)转载 2016-12-08 05:51:31 · 4302 阅读 · 0 评论 -
特征选择方法之互信息
互信息是用来评价一个事件的出现对于另一个事件的出现所贡献的信息量,具体的计算公式为: 其中U、C代表两个事件,e的取值可以为0或者1,1代表出现这个事件,0代表不出现。 把上述公式拆解为统计形式为: 其中N11是表示全部数据中两个事件同时出现的概率,N表示全部事件出现的次数,而N0.则表示N01+N00。 实际做单特征选择的时候,我们把某个特征是否出现和分类是否正确这两原创 2016-12-08 05:44:30 · 10952 阅读 · 0 评论 -
特征选择算法之开方检验
本文转自:http://blog.csdn.net/lixuemei504/article/details/7280567 前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。 大家应该还记转载 2016-12-08 04:44:46 · 593 阅读 · 0 评论 -
特征选择方法之信息增益
原文地址:http://blog.csdn.net/lixuemei504/article/details/7278748 前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的转载 2016-12-08 04:29:32 · 2130 阅读 · 0 评论