NLP数据分词小整理

最新推荐文章于 2023-04-22 15:45:27 发布

weixin_34161032

最新推荐文章于 2023-04-22 15:45:27 发布

阅读量756

点赞数

文章标签：人工智能 python 操作系统

原文链接：https://juejin.im/post/5c2f34a9e51d455093273a33

版权

这篇博客介绍了NLP中的知识提取，重点讲解了正则表达式、中文分词和词性标注，特别是jieba分词包的使用，包括全模式、精确模式和搜索引擎模式。还探讨了如何添加自定义词典，以及使用jieba进行关键词提取，包括基于TF-IDF和TextRank算法。此外，还提及了词性标注和并行分词功能。

摘要由CSDN通过智能技术生成

知识提取

知识提取是要解决结构化数据生成的问题。但是广义上讲，知识提取是数据质量提升中的一环，各种提升数据质量的方法，都可以视为某种知识提取。学术上一般是用自然语言处理的方法，但在实践中通常是利用规则。

我们要熟悉的概念和工具有（假设大家已经熟悉了Python）

正则表达式 ：正则表达式是字符串处理的基本功。常用工具re.数据爬取、数据清洗、实体提取、关系提取，都离不开regex。
中文分词和词性标注 ：分词也是后续处理的基础。常用工具jieba中文包.分词做得好，核心秘密在词库，算法的影响反而不太大。分词是会出错的。不过有些场合（比如检索排序），只要错误是一贯的，影响也不是太大。分词后面可以用规则来弥补。词性（Part of Speech, POS）就是中学大家学过的动词、名词、形容词等等的词的分类。一般的分词工具都会有词性标注的选项。
命名实体识别 ：用nltk调用Stanford NLP包

正则表达式

这里我们可以使用Python的re包(re – Regular Expressions)进行正则匹配

>>> import re
# 利用match方法匹配,如果匹配成功，返回一个Match对象，否则返回None
>>> re.match(r'^\d{3}\-\d{3,8}$', '010-12345')
<_sre.SRE_Match object at 0x1026e18b8>
复制代码

当我们在Python中使用正则表达式时，re模块内部会干两件事情： 1.编译正则表达式，如果正则表达式的字符串本身不合法，会报错； 2.用编译后的正则表达式去匹配字符串。如果一个正则表达式要重复使用几千次，出于效率的考虑，我们可以预编译该正则表达式，接下来重复使用时就不需要编译这个步骤了，直接匹配：

>>> import re
# 编译:
>>> re_telephone = re.compile(r'^(\d{3})-(\d{3,8})$')
# 使用：
>>> re_telephone.match('010-12345').groups()
('010', '12345')
>>> re_telephone.match('010-8086').groups()
('010', '8086')
# 匹配文本中所有email地址
mail_reg = re.compile(
						u'''
                        ((((e-)?mail|(e|E-)?MAIL|(e|E-)?Mail)|邮箱){1}(:|-|：|\ )*)?
                        (([a-zA-Z0-9_\-\.]+)@([a-zA-Z0-9_\-\.]+)\.([a-zA-Z]{2,5}){1,25})
                        ''', re.X
                        )
mail = mail_reg.findall(each_line.encode('utf-8').decode('utf-8'))
复制代码

更多方法见re官方文档或者 Ubuntu上的Wiki ^_^

中文分词和词性标注

我们可以用jieba中文分词包进行分词和标注,本文档主要讲jieba使用，另外还有PyNLPIR 提供 NLPIR/ICTCLAS汉语分词的Python接口，看这个教程 pynlpir.readthedocs.io/en/latest/t… ,中文词性标记集 github.com/memect/kg-b…