![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
词法分析
nlpzryyclxz
自然语言处理小组成立于2015年8月,主营自然语言处理领域相关业务。包括分词、实体识别,文本分类等外包业务。
展开
-
最大概率法分词
优点: 由于最大概率法考虑的是某种字串出现的条件下,最可能划分的词串,因此在拥有大量标注语料的前提下,可以在一定程度上避免切分歧义。原理: 设Z=z1z2…zn表示字串, W=w1w2…wm表示切分后的词串, 汉语词语切分可以看作是求使P(W|Z)最大的切分。p(W|Z) = P(W)P(Z|W)/P(Z) P(Z)是汉字串的概率,它对于各个候选词串都是一样的,不必考虑。 P(Z|原创 2015-08-27 10:55:18 · 3140 阅读 · 0 评论 -
类Hash结构词典
由于C语言中没有封装好的Hash(Python 字典)或红黑树(C++ STL map)结构, 因此在这里借用Hash的思想,实现了一个类似Hash的三级字典存储结构。实现代码如下/************************************************************ File Name : dict.c* Copyrigh原创 2015-08-28 09:02:03 · 405 阅读 · 0 评论 -
英语形态还原
英语单词具有丰富的词形变化(时态的表示,可数名词的复数,形容词比较级最高级等),如果把这些带有词形变化的词都放在词典中,就会使词典规模过大,造成资源浪费。 因此利用形态还原(stemming)把单词还原成词干形式是必要的。同时,在词形还原的过程中还可以获得丰富的 词法信息,这也为句法分析的后续处理提供了重要依据。形态还原(stemming)的方法分为两类 1、规则 Porter算法 2、统计原创 2015-08-28 09:16:25 · 529 阅读 · 0 评论