初识中文分词

最新推荐文章于 2024-07-08 21:27:42 发布

Vector_Bupt

最新推荐文章于 2024-07-08 21:27:42 发布

阅读量629

点赞数

分类专栏： NLP 文章标签：信息处理机器学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Vector_Bupt/article/details/49253057

版权

NLP 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

中文分词，就是将一个汉语序列（句子、段落等）切分成一个一个独立的词语（或者根据其他要求，可以切分成词组）。

但是相对其他语言，中文分词具有一些特殊性。比如：①与英语等其他拉丁语语言相比，中文并没有明显的空格为自然边界。②中文的词与词之间的界限划分并不十分清晰，单纯对汉语初学者，都会存在一些划分歧义，对于及其处理更是不消得说。

中文分词对于信息处理，数据挖掘有着重要的意义。作为自然语言处理（NLP）的一个分支，目前为止取得了很大的成效与应用，比如在搜索引擎，中文翻译，手写字体识别等方面。

有关分词的算法可分为以下三大类：

1、基于字符串匹配的分词方法。（又称为机械分词方法）

按照一定的策略将汉字序列与一个相当大的机器字典的词条（词库）进行匹配，匹配成功，即识别一个词。

①正向最大匹配法（左→右）

②逆向最大匹配法（右→左）

③最小切分（使切分的词数最小）

除此，还有双向最大匹配法（左→右，右→左两次扫描），以上方法可以结合使用。一般逆向最大匹配的正确率稍微比正向醉打匹配的要高一点。

2、基于理解的分词方法

通过让计算机模拟人对句子的理解，从而进行分词的操作，包括分词时的句法、语义分析，以及上下文处理歧义等。此法对语言知识和信息要求要高，尚处于试验阶段。

3、基于统计的分词方法

基于词是字的稳定组合，利用字与字之间相邻共现的频率或概率可以较好的反映词的置信度。计算两个字的互现信息，来刻画汉字之间的紧密程度，当这种程度超过一定的阈值，即可认为构成一个词。此法只对文本的字组频度进行统计，并不需要切分词典，因此又称为无字典分词法（或统计取词法）。但精度不高，时空开销大。但是可以与字符串匹配相结合，运用统计方法统计网络新词。

此外，结合统计机器学习的方法，可以对文本进行训练，学习词语的切分方法，以实现对中文文本分词的效果。同样要求大量的训练样本，并且时空开销比较大。

主要难题

1、歧义问题

2、新词识别

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Vector_Bupt CSDN认证博客专家 CSDN认证企业博客

码龄9年

2: 原创

195万+: 周排名

176万+: 总排名

1011: 访问

: 等级

29: 积分

0: 粉丝

0: 获赞

0: 评论

0: 收藏

私信

关注

热门文章

分类专栏

Life 1篇
NLP 1篇
iOS

最新文章

踏上新的征程

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。