NLP
文章平均质量分 69
Joy_Shen
You are in the picture
展开
-
语言模型评价指标Perplexity
语言模型(Language Model,LM),给出一句话的前k个词,希望它可以预测第k+1个词是什么,即给出一个第k+1个词可能出现的概率的分布p(xk+1|x1,x2,...,xk)。在报告里听到用PPL衡量语言模型收敛情况,于是从公式角度来理解一下该指标的意义。原创 2017-12-24 13:33:02 · 65535 阅读 · 7 评论 -
点互信息(PMI)预测utterance关键词
PMI(Pointwise Mutual Information)机器学习相关文献中,可以看到使用PMI衡量两个变量之间的相关性,比如两个词,两个句子。原理公式为:在概率论中,如果x和y无关,p(x,y)=p(x)p(y);如果x和y越相关,p(x,y)和p(x)p(y)的比就越大。从后两个条件概率可能更好解释,在y出现的条件下x出现的概率除以单看x出现的概率,这个值越大表示x和y原创 2018-01-16 21:16:00 · 18342 阅读 · 6 评论 -
基本的分词算法调研
NLP领域基本技术之一,分词(word segmentation)功能是将一句话用最合理的方式划分成词集合,符合语言特点和语义连贯。基于字典词库匹配的分词方法(机械分词法)应用词典匹配、汉语词法或其它汉语语言知识进行分词,如:最大匹配法、最小分词方法等。这类方法简单高效,但汉语语言复杂丰富,词典完备性、规则一致性等问题使其难以适应大规模文本的分词处理。MM原创 2018-02-07 15:43:17 · 956 阅读 · 0 评论