3. 中文分词技术

最新推荐文章于 2024-08-07 07:15:00 发布

ALuckyPig

最新推荐文章于 2024-08-07 07:15:00 发布

阅读量378

点赞数

分类专栏：自然语言处理文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lvoo86/article/details/85538712

版权

自然语言处理专栏收录该内容

7 篇文章 0 订阅

订阅专栏

理解自然语言的过程：分词技术、短语划分、概念抽取以及主题分析、自然语言理解

3.1 中文分词简介

汉语中，词以字为基本单位，但是一篇文章的语义表达却仍然是以词来划分的
分词歧义、未登录词、分词粒度粗细等都是影响分词效果的重要因素

中文分词方法：

规则分词、统计分词、混合分词（规则加统计）

规则分词：通过人工设立词库，按照一定方式进行匹配切分，实现简单高效，对新词很难处理
机器学习统计分词，较好应对新词发现等特殊场景，缺点太过于依赖语料的质量
实践中多依赖两种方法的结合，即混合分词

3.2 规则分词

机械分词方法，主要是通过维护词典，匹配切分，匹配切分方式：正向最大匹配法、逆向最大匹配法、双向最大匹配法

3.3 统计分词

主要思想：把每个词看作是由词的最小单位的各个字组成的，如果相连的词在不同的文本中出现的次数越多，就证明这连接的字很可能就是一个词

规则分词需要维护词典，统计分词依赖语料质量，计算量较大

操作步骤：

建立统计语言模型
对句子进行单词划分，然后对划分结果进行概率计算，获得概率最大的分词方式

3.3.1 语言模型

用概率论的专业术语描述语言模型就是：为长度为 m 的字符串确定其概率分布 P(w1,w2,…)，一般采用链式法则计算其概率值，如下
$P (w 1, w 2, . .) = P (w 1) P (w 2 ∣ w 1) P (w 3 ∣ w 1, w 2) . . .$
注意：这样的计算难度太大

因而提出了 n-gram 模型，忽略距离大于等于 n 的上文词的影响。显然当 n >= 2 时，该模型是可以保留一定的词序信息的，而且 n 越大保留的词序信息越丰富，但计算成本也呈指数级增长。

比如计算 2 元模型条件概率时，先统计我出现的次数，再统计 ”我是“ 出现次数，计算 $P (是 ∣ 我)$ 的概率

当统计长度越长的文本序列时，其出现次数也会减少，就会出现分子分母为 0 的情况，因此一般需要在 n 元模型中配合相应的平滑算法解决该问题，如拉普拉斯平滑算法等。

3.3.2 HMM 模型

隐马尔可夫是将分词作为字在字符串中的序列标注任务来实现的，其基本思路是：每个字在构造一个特定的位置时都占据着一个确定的构词位置

3.3.3 其他统计分词算法

条件随机场（CRF）也是一种基于马尔科夫思想的统计模型，在隐马尔科夫中有一个很经典的假设，那就是每个状态只与它前面的状态有关，这样的假设显然是有偏差的。条件随机场算法，使得每个状态不只与它前面的状态有关，还与它后面的状态有关。

神经网络分词方法采用 CNN LSTM 等深度学习网络自动发现一些模式和特征，然后结合 CRF softmax 等分类算法进行分词预测

3.4 混合分词

实际工程应用中，多是基于一种分词算法，然后用其他分词算法加以辅助。最常用的方式就是先基于词典的方式进行分词，然后再用统计分词方法进行辅助。如此，能在保证词典分词正确率的基础上，对于未登录词和歧义词有较好的识别。

3.5 中文分词工具 — jieba

jieba 分词结合了基于规则和基于统计这两类方法

3.5.1 jieba 的三种分词模式

精确模式
全模式
搜索引擎模式

3.5.2 实战之高频词提取

干扰项：

标点符号
停用词

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。