TF-IDF关键词提取

最新推荐文章于 2024-04-26 16:33:16 发布

SUN_SU3

最新推荐文章于 2024-04-26 16:33:16 发布

阅读量559

点赞数 1

分类专栏： NLP 文章标签：自然语言处理

本文链接：https://blog.csdn.net/u013546508/article/details/119681165

版权

NLP 专栏收录该内容

17 篇文章 1 订阅

订阅专栏

import jieba
import jieba.analyse
from tqdm import tqdm
from sklearn.feature_extraction.text import TfidfVectorizer

# data : 文本list

# jieba 关键词提取
def key_words1(data):
    text = ' '.join(data)
    kwds = jieba.analyse.extract_tags(text, topK=20, withWeight=True)
    for i in kwds:
        print(i)

# sklearn 关键词提取
def key_words2(data):
    data = [' '.join(jieba.lcut(_)) for _ in tqdm(data)]
    vectorizer = TfidfVectorizer(ngram_range=(1, 1))
    vct = vectorizer.fit(data)
    vocabs = vct.get_feature_names()
    text = [' '.join(data)]
    result = vct.transform(text)
    result = [(i, j) for i,j in zip(result.indices, result.data)]
    result = sorted(result, key=lambda x: x[1], reverse=True)
    for i in result[:20]:
        print(vocabs[i[0]], i[1])

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

SUN_SU3

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
TF-IDF关键词提取

import jiebaimport jieba.analysefrom tqdm import tqdmfrom sklearn.feature_extraction.text import TfidfVectorizer# data : 文本list# jieba 关键词提取def key_words1(data): text = ' '.join(data) kwds = jieba.analyse.extract_tags(text, topK=20, withWei
复制链接

扫一扫