NLP
Qiang__zi
...
展开
-
基于N-gram的双向最大匹配中文分词
摘要: 这次实验的内容是中文分词。将一个句子的所有词用空格隔开,将一个字串转换为一个词序列。 而我们用到的分词算法是基于字符串的分词方法中的正向最大匹配算法和逆向最大匹配算法。然后对两个方向匹配得出的序列结果中不同的部分运用Bi-gram计算得出较大概率的部分。最后拼接得到最佳词序列。 理论描述: 中文分词指的是将一个汉字序列切分成一个一个单独的词。 双向最大匹配算法是两个算法的转载 2017-11-04 16:38:32 · 2839 阅读 · 0 评论 -
卡方检验用于特征选择
卡方检验是特征选择中常用的算法之一。 (1) 卡方分布(chi-square distribution): 定义:若k个独立的随机变量z1,z2,…,zk,并且符合标准正太分布N(0,1), 则这k个随机变量的平方和 为服从自由度为k的卡方分布,记为:x~x2(k) 卡方分布的期望:E(x2)=n, 方差:D(x2)=2n, n为分布的自由度 (2) 卡方检验 思原创 2018-01-16 23:07:22 · 2866 阅读 · 0 评论