紧接上篇的文档,这节学习关键字的提取,关键词——keyword,是人们快速了解文档内容,把握主题的重要内容。
#导入需要的模块
import os
import codecs
import pandas
import jieba
import jieba.analyse
#搭建语料库
for root, dirs, files in os.walk(
r"C:\Users\www12\Desktop\data\2.6\SogouC.mini\\Sample\\"
):
for name in files:
filePath = root + '\\' + name;
f = codecs.open(filePath, 'r', 'utf-8')
content = f.read().strip()
f.close()#读取文件内容
tags = jieba.analyse.extract_tags(content, topK=5)#获取每篇文本词频在前五的关键词
filePaths.append(filePath)
contents.append(content)
关键字提取:
tags = jieba.analyse.extract_tags(content, topK=n)
参数: content:文章内容 topK=n:n个关键词
tag1s.append(tags[0])#数组提取对应的关键词
tag2s.append(tags[1])
tag3s.append(tags[2])
tag4s.append(tags[3])
tag5s.append(tags[4])
#关键词