文本处理—分词

hhhh106

已于 2022-03-13 17:25:48 修改

阅读量622

点赞数

分类专栏：机器学习原理文章标签：搜索引擎算法

于 2020-09-14 17:14:06 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_25174485/article/details/108575627

版权

机器学习原理专栏收录该内容

8 篇文章 1 订阅

订阅专栏

一、分词算法

1、词典分词--字符串匹配分词

该算法是按照一定的策略将待匹配的字符串和一个已建立好的“充分大的”词典中的词进行匹配，若找到某个词条，则说明匹配成功，识别了该词。常见的基于词典的分词算法分为以下几种：正向最大匹配法、逆向最大匹配法和双向匹配分词法等。
链接：https://www.jianshu.com/p/7377f6d24e87

分词的难点：

1、分词标准的制定

2、歧义

1）组合型歧义——比如“中华人民共和国”，粗粒度的分词就是“中华人民共和国”，细粒度的分词可能是“中华/人民/共和国”

2）交集型歧义——在“郑州天和服装厂”中，“天和”是厂名，是一个专有词，“和服”也是一个词，它们共用了“和”字。

3）真歧义——本身的语法和语义都没有问题, 即便采用人工切分也会产生同样的歧义
一般在搜索引擎中，构建索引时和查询时会使用不同的分词算法。常用的方案是，在索引的时候使用细粒度的分词以保证召回，在查询的时候使用粗粒度的分词以保证精度。

3、新词

也称未被词典收录的词，该问题的解决依赖于人们对分词技术和汉语语言结构的进一步认识。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。