java分词取词_中文自动分词技术

最新推荐文章于 2024-04-25 19:52:07 发布

weixin_39684235

最新推荐文章于 2024-04-25 19:52:07 发布

阅读量565

点赞数

文章标签： java分词取词

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39684235/article/details/114772130

版权

1、什么是自动分词技术

在搜索中，我们常把搜索项作为一个句子提取出来当做特征项，如果提取出来的是英文，那么单词和单词之间用空格将句子拆分。而在中文文本中，词与词之间没有天然的分隔符，中文词汇大多是由两个或两个以上的汉字组成的，并且语句是连续书写的。这就要求在对中文文本进行自动分析前，先将整句切割成小的词汇单元，即中文分词。用具体的例子来说明，就是如何把“我的爸爸是李刚”这样连续书写的语句切分为“我”、“的”、“爸爸”、“是”、“李刚”这五个词汇单元。

2、自动分词技术的重要性

对索引网页库信息进行预处理包括网页分析和建立倒排文件索引两个部分。文档由被称作特征相的索引词(词或者字)组成，网页分析是将一个文档表示为特征项的过程。中文自动分词则是建立网页分析的前提。在检索和文档分类系统中，自动分词系统的速度直接影响整个系统的效率。

3、中文自动分词常用算法

现在自动分词算法分为三类：基于词典的机械匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

4、算法介绍：自动分词的基本方法有：基于字符串匹配的分词方法和基于统计的分词方法。

1) 基于字符串匹配的分词方法

这种方法又称为机械分词方法，它是按照一定的策略将待分析的汉字串与一个充分大的词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功(识别出一个词)。

按照扫描方向的不同，串匹配分词方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大或最长和最小或最短匹配；按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下：

l 正向最大匹配

l

最低0.47元/天解锁文章

weixin_39684235

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java分词取词_中文自动分词技术

1、什么是自动分词技术在搜索中，我们常把搜索项作为一个句子提取出来当做特征项，如果提取出来的是英文，那么单词和单词之间用空格将句子拆分。而在中文文本中，词与词之间没有天然的分隔符，中文词汇大多是由两个或两个以上的汉字组成的，并且语句是连续书写的。这就要求在对中文文本进行自动分析前，先将整句切割成小的词汇单元，即中文分词。用具体的例子来说明，就是如何把“我的爸爸是李刚”这样连续书写的语句切分为“我”...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。