jieba.cut
import jieba
L = list(jieba.cut('大家好,我是勤奋努力的野指针'))
分词效果还是很不错滴
['大家', '好', ',', '我', '是', '勤奋努力', '的', '野', '指针']
把分好的词和字整理到文档里面
(整理了孤勇着里面的一段歌词)
import jieba
L = list(jieba.cut('大家好,我是勤奋努力的野指针'))
vocab = {} # 词
cs = {} # 字
text = ''
# 字典:去重功能
with open('gyz歌词.txt', 'r', encoding='utf-8') as file:
for line in file:
line = line.strip()
text += line
# 处理字
for c in line:
cs[c] = 0
# 分词
for word in jieba.cut(line):
vocab[word] = 0
with open('cs.txt', 'w') as csf:
for c in cs.keys():
csf.write(c + '\n')
with open('vocab.txt', 'w') as vf:
for w in vocab.keys():
vf.write(w + '\n')


jieba.analyse
import jieba.analyse
H = jieba.analyse.textrank(text, topK=10, withWeight=False) # 出现频率最高的十个词
这就是频率最高的十个词啦
['英雄', '衣裳', '对峙', '不算', '玩偶', '孤身', '缝好', '黑夜', '就让', '怪兽']
第一次写博客,不算太好,以后会继续努力!
&spm=1001.2101.3001.5002&articleId=124455863&d=1&t=3&u=b54a67e5fe0044c5944c040087a757bd)
2274

被折叠的 条评论
为什么被折叠?



