3. 中文分词技术

理解自然语言的过程:分词技术、短语划分、概念抽取以及主题分析、自然语言理解

3.1 中文分词简介

汉语中,词以字为基本单位,但是一篇文章的语义表达却仍然是以词来划分的
分词歧义、未登录词、分词粒度粗细等都是影响分词效果的重要因素

中文分词方法:

规则分词、统计分词、混合分词(规则加统计)

  1. 规则分词:通过人工设立词库,按照一定方式进行匹配切分,实现简单高效,对新词很难处理
  2. 机器学习统计分词,较好应对新词发现等特殊场景,缺点太过于依赖语料的质量
  3. 实践中多依赖两种方法的结合,即混合分词

3.2 规则分词

机械分词方法,主要是通过维护词典,匹配切分,匹配切分方式:正向最大匹配法、逆向最大匹配法、双向最大匹配法

3.3 统计分词

主要思想:把每个词看作是由词的最小单位的各个字组成的,如果相连的词在不同的文本中出现的次数越多,就证明这连接的字很可能就是一个词

规则分词需要维护词典,统计分词依赖语料质量,计算量较大

操作步骤:
  1. 建立统计语言模型
  2. 对句子进行单词划分,然后对划分结果进行概率计算,获得概率最大的分词方式

3.3.1 语言模型

用概率论的专业术语描述语言模型就是:为长度为 m 的字符串确定其概率分布 P(w1,w2,…),一般采用链式法则计算其概率值,如下
P ( w 1 , w 2 , . . ) = P ( w 1 ) P ( w 2 ∣ w 1 ) P ( w 3 ∣ w 1 , w 2 ) . . . P(w1,w2,..) = P(w1)P(w2|w1)P(w3|w1,w2)... P(w1,w2,..)=P(w1)P(w2w1)P(w3w1,w2)...
注意:这样的计算难度太大

因而提出了 n-gram 模型,忽略距离大于等于 n 的上文词的影响。显然当 n >= 2 时,该模型是可以保留一定的词序信息的,而且 n 越大保留的词序信息越丰富,但计算成本也呈指数级增长。

比如计算 2 元模型条件概率时,先统计我出现的次数,再统计 ”我是“ 出现次数,计算 P ( 是 ∣ 我 ) P(是|我) P() 的概率

当统计长度越长的文本序列时,其出现次数也会减少,就会出现分子分母为 0 的情况,因此一般需要在 n 元模型中配合相应的平滑算法解决该问题,如拉普拉斯平滑算法等。

3.3.2 HMM 模型

隐马尔可夫是将分词作为字在字符串中的序列标注任务来实现的,其基本思路是:每个字在构造一个特定的位置时都占据着一个确定的构词位置

3.3.3 其他统计分词算法

条件随机场(CRF)也是一种基于马尔科夫思想的统计模型,在隐马尔科夫中有一个很经典的假设,那就是每个状态只与它前面的状态有关,这样的假设显然是有偏差的。条件随机场算法,使得每个状态不只与它前面的状态有关,还与它后面的状态有关。

神经网络分词方法采用 CNN LSTM 等深度学习网络自动发现一些模式和特征,然后结合 CRF softmax 等分类算法进行分词预测

3.4 混合分词

实际工程应用中,多是基于一种分词算法,然后用其他分词算法加以辅助。最常用的方式就是先基于词典的方式进行分词,然后再用统计分词方法进行辅助。如此,能在保证词典分词正确率的基础上,对于未登录词和歧义词有较好的识别

3.5 中文分词工具 — jieba

jieba 分词结合了基于规则和基于统计这两类方法

3.5.1 jieba 的三种分词模式

  1. 精确模式
  2. 全模式
  3. 搜索引擎模式

3.5.2 实战之高频词提取

干扰项:

  1. 标点符号
  2. 停用词
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值