基于HanLP分词的命名实体提取

最新推荐文章于 2024-06-07 10:26:54 发布

XiaoXiao_Yang77

最新推荐文章于 2024-06-07 10:26:54 发布

阅读量1.3w

点赞数 6

分类专栏：文本挖掘算法文章标签：自然语言处理技术

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/XiaoXiao_Yang77/article/details/78437915

版权

文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识，并且利用这些知识更好地组织信息的过程。对于文本来说，由于语言组织形式各异，表达方式多样，文本里面提到的很多要素，如人名、手机号、组织名、地名等都称之为实体。在工程领域，招投标文件里的这些实体信息至关重要。利用自然语言处理技术从形式各异的文件中提取出这些实体，能有效提高工作效率和挖掘实体之间的潜在联系。

文本预处理

1、文本清洗

目前，大部分招中标项目信息都是发布在各个网站上，所以我们获取的主要是网络文本。网页中存在很多与文本内容无关的信息，比如广告，导航栏，html、js代码，注释等等。文本清洗，就是通过正则匹配去掉这些干扰信息，抽取出干净的文本内容。

2、中文分词

中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。一篇文本中不是所有词都很重要，我们只需找出起到关键作用、决定文本主要内容的词进行分析即可。目前几大主流的分词技术可移步到这篇博客中：中文分词技术小结、几大分词引擎的介绍与比较

笔者采用的是HanLP分词工具。
HanLP是由一系列模型与算法组成的Java工具包，目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性

最低0.47元/天解锁文章

XiaoXiao_Yang77

关注

6
点赞
踩
48

收藏

觉得还不错? 一键收藏
19
评论
基于HanLP分词的命名实体提取

文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识，并且利用这些知识更好地组织信息的过程。对于文本来说，由于语言组织形式各异，表达方式多样，文本里面提到的很多要素，如人名、手机号、组织名、地名等都称之为实体。在工程领域，招投标文件里的这些实体信息至关重要。利用自然语言处理技术从形式各异的文件中提取出这些实体，能有效提高工作效率和挖掘实体之间的潜在联系。文本预处理1、文本清洗目前，
复制链接

扫一扫

专栏目录

评论 19

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。