文本分析算法简单介绍-1

最新推荐文章于 2024-06-28 18:53:42 发布

martinSongzq

最新推荐文章于 2024-06-28 18:53:42 发布

阅读量1.1w

点赞数

文章标签：分词

本文链接：https://blog.csdn.net/szq34_2008/article/details/79374642

版权

本文介绍了中文分词的三种方法：机械分词、统计分词和机器学习分词，重点讲解了隐马尔可夫模型（HMM）在分词中的应用，并提到了TF-IDF文本打标算法。通过实例阐述了HMM的解码问题，展示了分词过程。

摘要由CSDN通过智能技术生成

以下内容是基于李博《机器学习实践应用》，邹博小象学院《机器学习课程》以及李航书籍《统计学习方法》加上自己的理解提炼而成

文本分析算法大致可以分成3种方法：机械分词，统计分词和机器学习分词。

1）机械分词：机械分词就是从一个很大的词库种找出匹配的词语，将其筛选出来。该方法实现非常简单，但是有一些问题：效率问题，因为要遍历一边词库，所以复杂度将会是O(m * n)，m代表的是文档中文字的数量，n是词库的数量。往往词库的数量都非常大，这样就会导致分词的效率低下。另一个问题就是会出现语意的分歧，比如词库里有“中国”“中国人”，那么当在遍历含有“中国人”的文章时，当先遍历到中国这个词时，会发生分词错误的情况。

2）统计分词：统计分词就是简单的基于概率的分词，思想就是从海量文本中找出频率很高的几个字。比如“小红买了个鸡蛋，他爸爸说你买的鸡蛋真大”。这里“鸡”，“蛋”同时出现的概率大，所以就能够把这个词语挑出来。这种分词的好处：对新的词语的感知能力强

3）机器学习分词：这类分词是基于人工标注的词性和统计特征对中文进行建模，实际的分词过程其实就变成了对结果的预测过程，通过计算没中分词的可能性概率大小进行哦分词并且得到最终结果。比较常见的就是隐马尔可夫模型（Hidden Markev Model, HMM韩梅梅模型)，以及条件随机场（Conditional Random Field, CRF）算法。

HMM模型介绍，隐马尔可夫模型的“隐”这个词是什么意思呢，就是代表隐变量的意思。我们通过一个经典的例子来解释：假如一个人A，根据基于天气状况来安排自己的活动，A有三种活动“散步”，“购物”和“清理房间”。怎么观察A天天在干嘛呢，A有个习惯，会通过发新浪微博来记录自己每天做的事情。虽然我们不知道A所在的城市的天气状况，但是可以通过他的活动来推理A所在城市每天的天气，因为之前说过A会根据基于天气状况来安排自己的活动。比如说如果这一天是雨天，那么A出门散步的概率就不会很大。因此，在这个案例中天气状况就是我们要预测的“隐”信息，这里边的天气和A活动间的关系就能够通过状态概率矩阵来表示，HMM就是这样一个通过概率模型训练的机器学习算法。

隐马尔可夫模型主要解决三种基本问题：评估问题，解码问题和学习问题。我们可以把HMM输入分为以下五元组，InitStatus（初始状态集合）, StatusSet（状态值集合）, ObservedSet（观察值集合）, TransProbMatrix（转移概率集合）, EmitProbMatrix（发射概率矩阵）。本文讲的是分词，该功能本质上是一种解码问题，该问题本质上是寻找最优的隐状态序列，通常是利用Viterbi算法来求解，该算法已知 InitStatus（初始状态集合）, ObservedSet（观察值集合）, TransProbMatrix（转移概率集合）, EmitProbMatrix（发射概率矩阵）求解 StatusSet（状态值集合）。