python数据挖掘实战笔记——文本分析(6):关键词提取

本文档介绍Python数据挖掘中进行文本分析的关键步骤——关键词提取,使用jieba库的analyse模块,通过extract_tags方法获取文章的topK个关键词。
摘要由CSDN通过智能技术生成

紧接上篇的文档,这节学习关键字的提取,关键词——keyword,是人们快速了解文档内容,把握主题的重要内容。

#导入需要的模块
import os
import codecs
import pandas
import jieba
import jieba.analyse
#搭建语料库
for root, dirs, files in os.walk(
    r"C:\Users\www12\Desktop\data\2.6\SogouC.mini\\Sample\\"
):
    for name in files:
        filePath = root + '\\' + name;
        f = codecs.open(filePath, 'r', 'utf-8')
        content = f.read().strip()
        f.close()#读取文件内容
        tags = jieba.analyse.extract_tags(content, topK=5)#获取每篇文本词频在前五的关键词
        filePaths.append(filePath)
        contents.append(content)

关键字提取:
tags = jieba.analyse.extract_tags(content, topK=n)
参数: content:文章内容 topK=n:n个关键词

        tag1s.append(tags[0])#数组提取对应的关键词
        tag2s.append(tags[1])
        tag3s.append(tags[2])
        tag4s.append(tags[3])
        tag5s.append(tags[4])
#关键词
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值