![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
文章平均质量分 79
小猫奇点
To be or not to be,it's up to you!
展开
-
自然语言处理之未登录词(二)
在上一篇博文中已简单介绍了自然语言处理未登录词中新词提取的实现,现在来介绍一下新词提取的原理。 未登录词-新词提取的流程如下图所示: 对于新词提取的原理,主要介绍以下两个方面: 1、利用词频选取候选词语,即种子词语 2、判别候选词语的内部结合紧密程度和外部边界独立性 下面开始详细介绍 一、利用词频选取候选词语,即种子词语 利用N-Gram对语料进行切分,得到词语片段,统计词...原创 2018-11-13 10:19:09 · 7176 阅读 · 1 评论 -
自然语言处理之未登录词(一)
在中文自然语言处理过程中,我们会遇到很多其他语言不会有的困难,其中一个困难就是分词。首先,因为中文的词与词之间没有空格,从而产生分词歧义的难题,不过目前很多语言模型已经能很好的解决这个难题了。其次,由于中文中存在很多没有被收录在分词词表中但必须切分出来的词,包括各类专有名词(人名、地名、机构名等)、新词等等,从而产生未登录词的难题,不过目前已经广泛使用命名实体识别(NER)来识别出名、地名、机构名...原创 2018-11-09 16:53:00 · 10395 阅读 · 3 评论 -
EM算法原理及其在NLP中的应用
EM算法是一种迭代算法,全称为期望极大算法(expectation maximization algorithm),用于含有隐变量(hidden variable)的概率模型参数的极大似然估计,或极大后验概率估计。 一、EM算法的原理 EM算法 输入:观测变量数据Y,隐变量数据Z,联合分布P(Y,Z|θ),条件分布P(Z|Y,θ); 输出:模型参数θ (1)选择参数的初值θ0,开始迭代; (2)E...原创 2019-01-17 11:07:34 · 1739 阅读 · 0 评论