![b10da9a9bb46a546ffd60a1e5249bad5.png](https://i-blog.csdnimg.cn/blog_migrate/57fba091232aad411306003b90d10f99.jpeg)
✖ 导语 ✖
本篇主要对分词技术中基于统计的分词方法进行深入的探究,先是介绍了统计方法分词是什么以及一般步骤,随后介绍了语言模型,最后介绍了常见的统计算法(维特比算法),并实现了统计算法的分词。
以下为文章结构,本篇内容干货满满:(阅读全文大概需要20分钟)
![95bc09c58cd8781307e052bf83f88647.png](https://i-blog.csdnimg.cn/blog_migrate/d9b30f0e9ea2b7d6f10b85140c5ed6e8.jpeg)
✖ 统计分词 ✖
01统计的分词方法
基于统计的分词算法的主要核心是词是稳定的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻出现的概率或频率能较好地反映成词的可信度。可以对训练文本中相邻出现的各个字的组合的频度进行统计,计算它们之间的互现信息。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可以认为此字组可能构成了一个词。该方法又称为无字典分词。
02步骤
1.需要构建语言模型
2.对句子进行单词划分,划分结果运用统计方法计算概率,获取概率最大的分词方式。(统计方法如隐马尔可夫模型HMM,条件随机场CRF)
✖ 统计语言模型 ✖
01概念
自然语言处理的专家弗莱德里克·贾里尼克教授说过:一个句子是否合理,就看它的可能性大小如何。统计语言模型(Statistical Language Model)即是用来描述词、语句乃至于整个文档这些不同的语法单元的概率分布的模型,能够用于衡量某句话或者词序列是否符合所处语言环境下人们日常的行文说话方式。
好的统计语言模型需要依赖大量的训练数据,在上世纪七八十年代,基本上模型的表现优劣往往会取决于该领域数据的丰富程度。IBM 曾进行过一次信息检索评测,发现二元语法模型(Bi-gram)需要数以亿计的词汇才能达到最优表现,而三元语法模型(TriGram)则需要数十亿级别的词汇才能达成饱和。
本世纪初,最流行的统计语言模型当属 N-gram,其属于典型的基于稀疏表示(Sparse Representation)的语言模型;近年来随着深度学习的爆发与崛起,以词向量(Word Embedding)为代表的分布式表示(Distributed Representation)的语言模型取得了更好的效果,并且深刻地影响了自然语言处理领域的其他模型与应用的变革。
除此之外,Ronald Rosenfeld[7] 还提到了基于决策树的语言模型(Decision Tree Models)、最大熵模型以及自适应语言模型(Adaptive Models)等。