nlp task2
just__we
just we就是just we 既不伟大也不卑微
展开
-
Task2
中英文字符串处理(删除不相关的字符、去停用词);分词(结巴分词);词、字符频率统计分词jieba.cut():三个参数,需要分词的字符串,cut_all为是否为全模式;HMM为是否使用HMM模型jieba.cut_cut_for_search:需要分词的字符串;是否使用HMM模型,编码可为Unicode,utf-8,GBK。GBK易被误解为utf-8上述返回的都为一个可迭代的generat...原创 2019-05-14 18:32:24 · 96 阅读 · 0 评论 -
Task2-ngram
原理N-gram 是基于一个假设,即第n个词出现与前n-1个词有关,而与其他任何词不相关(隐马尔可夫当中的假设)。整个句子出现的概率变成了各个词出现的概率乘积。各个词可以通过语料库统计计算得到。假设句子T是由序词序列w1、w2…wn组成,用公式N-gram语言模型如下:P(T)=P(w1)*p(w2)p(w3)……*p(wn)=p(w1)*p(w2|w1)p(w3|w1w2)……*p(wn|w...原创 2019-05-14 19:33:22 · 117 阅读 · 0 评论