sklearn 读取csv_用sklearn的TF-IDF模块进行短文本关键词提取

本文介绍如何利用sklearn的TF-IDF模块对新浪体育新闻的短文本进行关键词提取。通过构建文本读取函数、文本降噪处理(去除停用词、数字、长词等)和主函数,展示关键词提取效果。提取出的关键词能够较好地概括文本内容。
摘要由CSDN通过智能技术生成

aef0c7d0ca63ef1a96bac43cfedff9ac.png

尝试用sklearn的TF-IDF模块对新浪新闻的部分体育类别短文进行关键词提取

1.构建文本读取函数

def 

2.文本降噪,对文本进行去除停用词,去除数字字符,以及仅保留字符串长度大于1及小于5的词

def text_preprossing(context):
    cus = []
    words_cut = jieba.cut(context,cut_all=False)
    for item in words_cut:
        if item not in stop_words and not item.isdigit() and 1<len(item)<5:
            cus.append(item)
            print(cus)
    return ' '.join(cus)

3.主函数

import jieba
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
if __name__=='__main__':
    start = False
    text_data,label = r
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值