[笔记] 中文分词

最新推荐文章于 2023-07-15 18:34:29 发布

deardeerluluu

最新推荐文章于 2023-07-15 18:34:29 发布

阅读量221

点赞数

分类专栏：深度学习中文分词

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/deardeerluluu/article/details/89278588

版权

深度学习同时被 2 个专栏收录

15 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

我爱自然语言处理－中文分词

汉语分词的难点

汉语分词是自然语言处理中一个重要的基础研究任务，其主要难点包括分词规范、歧义切分、未登录词识别等。

分词规范：词这个概念一直是汉语语言学界纠缠不清又挥之不去的问题，也就是说，对于词的抽象定义(词是什么)和词的具体界定(什么是词)迄今拿不出一个公认的、具有权威性的词表来。

歧义切分：切分歧义是汉语分词研究中一个大问题，因为歧义字段在汉语文本中大量存在。处理这类问题可能需要进行复杂的上下文语义分析，甚至韵律分析(语气、重音、停顿等)。

未登录词识别：未登录词又叫生词，一般有二种解释：第一种指的是已有的词表中没有收录的词；第二种指的是已有的训练语料中未曾出现过的词。在第二种解释下，又称之为集外词(out of vocabulary，OOV)。

最大匹配算法正向、逆向及代码实现
算法思想：

正向最大匹配算法：从左到右将待分词文本中的几个连续字符与词表匹配，如果匹配上，则切分出一个词。但这里有一个问题：要做到最大匹配，并不是第一次匹配到就可以切分的。我们来举个例子：

待分词文本： sentence[]={“计”，“算”，“语”，“言”，“学”，“课”，“程”，“有”，“意”，“思”}

词表： dict[]={“计算”, “计算语言学”, “课程”, “有”, “意思”} （真实的词表中会有成千上万个已经平时我们使用的分好的词语）

(1) 从sentence[1]开始，当扫描到sentence[2]的时候，发现"计算"已经在词表dict[]中了。但还不能切分出来，因为我们不知道后面的词语能不能组成更长的词(最大匹配)。

(2) 继续扫描content[3]，发现"计算语"并不是dict[]中的词。但是我们还不能确定是否前面找到的"计算语"已经是最大的词了。因为"计算语"是dict[2]的前缀。

(3) 扫描content[4]，发现"计算语言"并不是dict[]中的词。但是是dict[2]的前缀。继续扫描：

(3) 扫描content[5]，发现"计算语言学"是dict[]中的词。继续扫描下去：

(4) 当扫描content[6]的时候，发现"计算语言学课"并不是词表中的词，也不是词的前缀。因此可以切分出前面最大的词——“计算语言学”。

由此可见，最大匹配出的词必须保证下一个扫描不是词表中的词或词的前缀才可以结束。

维比特算法

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[笔记] 中文分词

我爱自然语言处理－中文分词汉语分词的难点汉语分词是自然语言处理中一个重要的基础研究任务，其主要难点包括分词规范、歧义切分、未登录词识别等。分词规范：词这个概念一直是汉语语言学界纠缠不清又挥之不去的问题，也就是说，对于词的抽象定义(词是什么)和词的具体界定(什么是词)迄今拿不出一个公认的、具有权威性的词表来。歧义切分：切分歧义是汉语分词研究中一个大问题，因为歧义字段在汉语文本中大量存在。处理...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。