python自然语言处理模块_中文自然语言处理(NLP)(二)python jieba模块的进一步学习和xlrd模块...

汉长安

于 2021-01-13 21:30:56 发布

阅读量427

点赞数

文章标签： python自然语言处理模块

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_34023073/article/details/112895586

版权

本文介绍了如何利用jieba模块进行带词性的分词，并结合xlrd模块处理Excel文件。通过jieba.posseg进行词性标注，然后读取Excel文件，将数据添加为jieba的自定义词。同时，展示了从txt文件导入停用词表的方法。

摘要由CSDN通过智能技术生成

续上次对于jieba模块的介绍，这次主要是一些jieba模块的进一步的应用，以及在这次的项目里面和xlrd模块结合起来的应用。

1.jieba带词性的分词

jieba的词性标注posseg:词性标注也叫此类标注,pos tagging是part-of-speech tagging的缩写

要使用jieba的这个功能只需要import jieba.posseg as psg(随便一个名字,这里就叫psg了)

一般情况下带词性的分词格式为:

1 all_words_with_attr=[(x.word,x.flag)for x in psg.cut(read_txt) if x.flag=='n' and x.word not in stop_list]

p.s.read_txt是需要读取的文本,stop_list是之前添加的停用词表,这里还对其词性限制为名词

下图为分词之前的文本,这里是将其整个读入txt文件了:

下图是分词之后得到的词语(因为全都是名词所以就不将词性显示出来了):

可以看到,经过分词之后的结果还是比较理想的,这里的停用词表是下载的哈工大的通用停用词表,txt文件,单独读取为一个list,若分出的词为名词并且不在这个list(not in)里面,就将其记录下来.

2.涉及excel文件的处理 xlrd和xlwt模块

这次的项目里需要对excel文件进行读写操作,所以说需要将excel文件里的数据按要求格式读取和存储

这里就用到了python的xlrd(读)和xlwt(写)模块

2.1安装

xlrd和xlwt模块的安装直接在cmd窗口里面pip install xlrd/xlwt即可

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python自然语言处理模块_中文自然语言处理(NLP)(二)python jieba模块的进一步学习和xlrd模块...

续上次对于jieba模块的介绍，这次主要是一些jieba模块的进一步的应用，以及在这次的项目里面和xlrd模块结合起来的应用。1.jieba带词性的分词jieba的词性标注posseg:词性标注也叫此类标注,pos tagging是part-of-speech tagging的缩写要使用jieba的这个功能只需要import jieba.posseg as psg(随便一个名字,这里就叫psg了)...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。