分词技术

最新推荐文章于 2024-08-07 07:15:00 发布

L_Z_

最新推荐文章于 2024-08-07 07:15:00 发布

阅读量1k

点赞数

分类专栏：技术

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40355351/article/details/87855188

版权

技术专栏收录该内容

7 篇文章 0 订阅

订阅专栏

分词

分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。当然，我们在进行数据挖掘、精准推荐和自然语言处理工作中也会经常用到中文分词技术。

词是最小的能够独立活动的有意义的语言成分，英文单词之间是以空格作为自然分界符的，而汉语是以字为基本的书写单位，词语之间没有明显的区分标记，因此中文是一定要分词的。而且nlp的基础任务中，关键词抽取，词性标注，命名实体识别，语法分析，句法分析等等都默认了词是基本单位。

中文分词技术的分类

第一类方法应用词典匹配、汉语词法或其它汉语语言知识进行分词，如：正向最大匹配法、逆向最大匹配法、最小匹配方法等。这类方法简单、分词效率较高,但汉语语言现象复杂丰富，词典的完备性、规则的一致性等问题使其难以适应开放的大规模文本的分词处理（比如未登录词）。

第二类基于统计的分词方法则基于字和词的统计信息，如把相邻字间的信息、词频及相应的共现信息等应用于分词，由于这些信息是通过调查真实语料而取得的，因而基于统计的分词方法具有较好的实用性。

第三类基于字标注的分词方法实际上是构词方法。即把分词过程视为字在字串中的标注问题。由于每个字在构造一个特定的词语时都占据着一个确定的构词位置(即词位)，假如规定每个字最多只有四个构词位置：即B(词首)，M (词中)，E(词尾)和S(单独成词)，那么下面句子(甲)的分词结果就可以直接表示成如(乙)所示的逐字标注形式：

(甲)分词结果：／上海／计划／N／本／世纪／末／实现／人均／国内／生产／总值／五千美元／。

(乙)字标注形式：上／B海／E计／B划／E N／S 本／s世／B 纪／E 末／S 实／B 现／E 人／B 均／E 国／B 内／E生／B产／E总／B值／E 五／B千／M 美／M 元／E 。／S

常用的分词组件

Jieba (C++, Java, python)https://github.com/fxsjy/jieba
HanLP (Java)https://github.com/hankcs/HanLP
FudanNLP (Java)https://github.com/FudanNLP/fnlp
LTP (C++, Java, python)https://github.com/HIT-SCIR/ltp

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

L_Z_ CSDN认证博客专家 CSDN认证企业博客

码龄7年

63: 原创

31万+: 周排名

98万+: 总排名

9万+: 访问

: 等级

1305: 积分

29: 粉丝

63: 获赞

14: 评论

211: 收藏

私信

关注

分类专栏

剑指Offer 15篇
数据结构 16篇
C++ 28篇
C 11篇
Linux 1篇
技术 7篇

最新评论

C++-------什么是this指针？this指针详解
奇迹是有颜色的: 在这里应该是调用对象的成员吧
C++-------什么是this指针？this指针详解
Ehan_Cheung: 成员函数执行时，调用该成员函数的对象是什么意思呢？成员函数怎么还有对象，应该是调用类的对象吧
C++-------什么是this指针？this指针详解
加拿大热带闪电: 谢谢分享，看了一圈发现您的文章让我茅塞顿开
yum安装时出现No more mirrors to try.
张张张志喜: 谢谢分享，有用
yum安装时出现No more mirrors to try.
jggjl: 我遇到过，是云服务器没有配置DNS造成的，添加上就可以了。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。