题目:对于给出的纯文本文件,统计每个词出现的次数(借助jieba分词)
首先纯文本文件是这样的:地址:E:\python测试资源\test.txt
(侵删)
每句歌词之间是用空格切开的
思路:使用jieba分词先把歌词切分成词组的形式,然后统计每一个词出现的次数之后,输出到屏幕上。
代码:
import jieba
#载入jieba分词
#打开测试的纯文本文件。readline是读入一行内容,读到换行符会停止,但是因为这个文件里所有歌词之间都是由空白符切分的,所以没有问题。返回字符串形式
word = open(r"E:\python测试资源\test.txt",'r').readline()
#检查是否正确读入
print(word)
#jieba.cut()用于对括号内的字符串进行智能切分,返回一个装着每一个词的列表
list = jieba.cut(word)
#创建保存每个词出现次数的列表
getlist={}
#遍历每一个list里的词
for w in list:
#如果曾经出现过,就把出现次数+1
if w in getlist:
getlist[w]+=1
#如果w从未出现过,就把他加进去并且初始化出现次数为1
else:
getlist[w]=1
#输出这个保存着词频信息的列表
print(getlist)
效果:
bingo!