文本分析算法简单介绍-1

        以下内容是基于李博《机器学习实践应用》,邹博小象学院《机器学习课程》以及李航书籍《统计学习方法》加上自己的理解提炼而成


文本分析算法大致可以分成3种方法:机械分词,统计分词和机器学习分词。

1)机械分词:机械分词就是从一个很大的词库种找出匹配的词语,将其筛选出来。该方法实现非常简单,但是有一些问题:效率问题,因为要遍历一边词库,所以复杂度将会是O(m * n),m代表的是文档中文字的数量,n是词库的数量。往往词库的数量都非常大,这样就会导致分词的效率低下。另一个问题就是会出现语意的分歧,比如词库里有“中国”“中国人”,那么当在遍历含有“中国人”的文章时,当先遍历到中国这个词时,会发生分词错误的情况。

2)统计分词:统计分词就是简单的基于概率的分词,思想就是从海量文本中找出频率很高的几个字。比如“小红买了个鸡蛋,他爸爸说你买的鸡蛋真大”。这里“鸡”,“蛋”同时出现的概率大,所以就能够把这个词语挑出来。这种分词的好处:对新的词语的感知能力强

3)机器学习分词:这类分词是基于人工标注的词性和统计特征对中文进行建模,实际的分词过程其实就变成了对结果的预测过程,通过计算没中分词的可能性概率大小进行哦分词并且得到最终结果。比较常见的就是隐马尔可夫模型(Hidden Markev Model, HMM韩梅梅模型),以及条件随机场(Conditional Random Field, CRF)算法。

                                    


    HMM模型介绍,隐马尔可夫模型的“隐”这个词是什么意思呢,就是代表隐变量的意思。我们通过一个经典的例子来解释:假如一个人A,根据基于天气状况来安排自己的活动,A有三种活动“散步”,“购物”和“清理房间”。怎么观察A天天在干嘛呢,A有个习惯,会通过发新浪微博来记录自己每天做的事情。虽然我们不知道A所在的城市的天气状况,但是可以通过他的活动来推理A所在城市每天的天气,因为之前说过A会根据基于天气状况来安排自己的活动。比如说如果这一天是雨天,那么A出门散步的概率就不会很大。因此,在这个案例中天气状况就是我们要预测的“隐”信息,这里边的天气和A活动间的关系就能够通过状态概率矩阵来表示,HMM就是这样一个通过概率模型训练的机器学习算法。

    隐马尔可夫模型主要解决三种基本问题:评估问题,解码问题和学习问题。我们可以把HMM输入分为以下五元组,InitStatus(初始状态集合), StatusSet(状态值集合), ObservedSet(观察值集合), TransProbMatrix(转移概率集合), EmitProbMatrix(发射概率矩阵)。本文讲的是分词,该功能本质上是一种解码问题,该问题本质上是寻找最优的隐状态序列,通常是利用Viterbi算法来求解,该算法已知 InitStatus(初始状态集合), ObservedSet(观察值集合), TransProbMatrix(转移概率集合), EmitProbMatrix(发射概率矩阵)求解 StatusSet(状态值集合)。

  • 0
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值