续上次对于jieba模块的介绍,这次主要是一些jieba模块的进一步的应用,以及在这次的项目里面和xlrd模块结合起来的应用。
1.jieba带词性的分词
jieba的词性标注posseg:词性标注也叫此类标注,pos tagging是part-of-speech tagging的缩写
要使用jieba的这个功能只需要import jieba.posseg as psg(随便一个名字,这里就叫psg了)
一般情况下带词性的分词格式为:
1 all_words_with_attr=[(x.word,x.flag)for x in psg.cut(read_txt) if x.flag=='n' and x.word not in stop_list]
p.s.read_txt是需要读取的文本,stop_list是之前添加的停用词表,这里还对其词性限制为名词
下图为分词之前的文本,这里是将其整个读入txt文件了:
下图是分词之后得到的词语(因为全都是名词所以就不将词性显示出来了):
可以看到,经过分词之后的结果还是比较理想的,这里的停用词表是下载的哈工大的通用停用词表,txt文件,单独读取为一个list,若分出的词为名词并且不在这个list(not in)里面,就将其记录下来.
2.涉及excel文件的处理 xlrd和xlwt模块
这次的项目里需要对excel文件进行读写操作,所以说需要将excel文件里的数据按要求格式读取和存储
这里就用到了python的xlrd(读)和xlwt(写)模块
2.1安装
xlrd和xlwt模块的安装直接在cmd窗口里面pip install xlrd/xlwt即可