NLP学习:（三）TF-IDF

最新推荐文章于 2024-06-01 20:54:51 发布

优雅一只猫

最新推荐文章于 2024-06-01 20:54:51 发布

阅读量139

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/weixin_41492426/article/details/90271577

版权

NLP 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

TFIDF补充

上一篇文章中已经使用了sklearn的TFIDF
这次补充，数据集用了高校大数据预选赛的数据集

from gensim import corpora
import jieba
import jieba.analyse
import pandas as pd
import numpy as np

text = pd.read_csv("../train.csv",lineterminator='\n')
def word_cut(mytext):
    return " ".join(jieba.cut(mytext)).strip().replace("...","").replace('?',"")
def word_split(content):
    return content.strip().lower().split(' ')
text['split_review'] = text.review.apply(word_split)
dic = text['split_review'].values.tolist()

dictionary = corpora.Dictionary(dic)
corpus = [dictionary.doc2bow(sentence ) for sentence in dic]

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

优雅一只猫

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
NLP学习:（三）TF-IDF

TFIDF补充上一篇文章中已经使用了sklearn的TFIDF这次补充，数据集用了高校大数据预选赛的数据集from gensim import corporaimport jiebaimport jieba.analyseimport pandas as pdimport numpy as nptext = pd.read_csv("../train.csv",linetermi...
复制链接

扫一扫