中文分词

最新推荐文章于 2023-12-18 15:49:45 发布

weixin_39508304

最新推荐文章于 2023-12-18 15:49:45 发布

阅读量203

点赞数

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/weixin_39508304/article/details/80405025

版权

自然语言处理专栏收录该内容

2 篇文章 0 订阅

订阅专栏

在中文自然语言中，词是组成句、段章的基本语言单元。由于汉语词语之间没有明显的区分标记，因此，在进行中文自然语言处理前，通常是先将汉语文本中的字符串切分成合理的词语序列，并在此基础上进行其他分析处理。中文的词法分析在很多情况下表现为中文分词，她也是自然语言处理中的一项基础性的工作。分词能将每段文本分成独立的词汇单元，词性标准能标引出每个词的此次那个。

中文分词就是将中文字符串切分成合理词语的过程，它是中文信息处理的一个基础环节。

相关学者和研究人员在这个领域已经取得了一些客观成果，也有了一些通用分词算法。需要指出的是，分词算法想获得更好的切分精度，通常需要利用更多的语言资料，这样必定会耗费更多时间。影响分词准确率的一大因素是歧义，切分歧义包括组合型歧义和交集型歧义。组合型歧义就是对于字符串AB，可以切分为AB，又可以切分为A/B，如‘人才’存在组合切分歧义，‘你/是/个/人才’及‘只有/你/的/人/才/会/理/他’；交集型歧义就是ABC，可以切分为AB/C，又可以切分为A/BC。如‘杭州/市长/春药/店’与‘杭州市/长春/药店’。限于当前的处理技术，汉语切分要做到百分之百的正确率比较难的，而且由于语言本身的复杂性，汉语词汇也没有确定的界定标准，加之网络未登录词、自定义词、缩略词、自造词等广泛应用，导致了不同的信息处理技术对分词标准不同要求。例如，对于信息检索系统来说，可能更倾向于较小的分词单位，比如把‘并行计算机’切分成‘并行/计算机’，‘计算语言学’切分成‘计算/语言学’，使得无论用‘并行计算机’还是用‘计算机’‘计算语言学’或‘语言学’检索都能查找到。当然，分词单元的粒度大小需要考虑到查全率和查准率。对于当前的一些实际应用来说，可能时间效率是更重要的。对于那些有较高切分精度的分词算法，因为速度慢，不仅无法满足实际应用需求，有时甚至也无法满足其他自然语言处理研究的需要。在目前的许多实际应用产品中，为了保证速度，不得不牺牲部分准确度，可能也采取了一些较简单的切分算法。

weixin_39508304

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
中文分词

在中文自然语言中，词是组成句、段章的基本语言单元。由于汉语词语之间没有明显的区分标记，因此，在进行中文自然语言处理前，通常是先将汉语文本中的字符串切分成合理的词语序列，并在此基础上进行其他分析处理。中文的词法分析在很多情况下表现为中文分词，她也是自然语言处理中的一项基础性的工作。分词能将每段文本分成独立的词汇单元，词性标准能标引出每个词的此次那个。中文分词就是将中文...
复制链接

扫一扫