python自然语言处理模块_中文自然语言处理(NLP)(二)python jieba模块的进一步学习和xlrd模块...

本文介绍了如何利用jieba模块进行带词性的分词,并结合xlrd模块处理Excel文件。通过jieba.posseg进行词性标注,然后读取Excel文件,将数据添加为jieba的自定义词。同时,展示了从txt文件导入停用词表的方法。
摘要由CSDN通过智能技术生成

续上次对于jieba模块的介绍,这次主要是一些jieba模块的进一步的应用,以及在这次的项目里面和xlrd模块结合起来的应用。

1.jieba带词性的分词

jieba的词性标注posseg:词性标注也叫此类标注,pos tagging是part-of-speech tagging的缩写

要使用jieba的这个功能只需要import jieba.posseg as psg(随便一个名字,这里就叫psg了)

一般情况下带词性的分词格式为:

1 all_words_with_attr=[(x.word,x.flag)for x in psg.cut(read_txt) if x.flag=='n' and x.word not in stop_list]

p.s.read_txt是需要读取的文本,stop_list是之前添加的停用词表,这里还对其词性限制为名词

下图为分词之前的文本,这里是将其整个读入txt文件了:

下图是分词之后得到的词语(因为全都是名词所以就不将词性显示出来了):

可以看到,经过分词之后的结果还是比较理想的,这里的停用词表是下载的哈工大的通用停用词表,txt文件,单独读取为一个list,若分出的词为名词并且不在这个list(not in)里面,就将其记录下来.

2.涉及excel文件的处理  xlrd和xlwt模块

这次的项目里需要对excel文件进行读写操作,所以说需要将excel文件里的数据按要求格式读取和存储

这里就用到了python的xlrd(读)和xlwt(写)模块

2.1安装

xlrd和xlwt模块的安装直接在cmd窗口里面pip install xlrd/xlwt即可

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值