python实现文本特征提取之tf-idf

xiaoshu_yilian

已于 2022-04-15 13:05:54 修改

阅读量644

点赞数 1

文章标签： python

于 2020-07-28 22:38:38 首次发布

本文链接：https://blog.csdn.net/weixin_38003620/article/details/107647216

版权

话不多说，直接上个python实现文本特征提取的demo,关于里面调用方法比如CountVectorizer参数的解释可以直接看源码。有兴趣自己玩玩吧~

from sklearn.feature_extraction.text import CountVectorizer,TfidfTransformer
import jieba

def text2Feature(texts):
    vectoizer=CountVectorizer()
    x=vectorizer.fit_transform(texts)
    transformer=TfidfTransformer()
    tfidf=transformer.fit_transform(x)
    words=vectorizer.get_feature_names()
    weights=tfidf.toarray()
    return words,weights
   
if __name__=="__main__":
    rawData=['深圳地铁三号线正式执行疫情期间夜间停运方案','深圳地铁14号线2022年有望投入运营']
    inputData=[]
    for i ,j in enumerate(rawData):
        tmp=list(jieba.cut(j))
        tmp1=' 'join(tmp)
        inputData.append(tmp1)   
    words,weights=text2Feature(inputData)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

xiaoshu_yilian

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python实现文本特征提取之tf-idf

话不多说，直接上个python实现文本特征提取的demo,关于里面调用方法比如CountVectorizer参数的解释可以直接看源码。有兴趣自己玩玩吧~from sklearn.feature_extraction.text import CountVectorizer,TfidfTransformerimport jiebadef text2Feature(texts): vectoizer=CountVectorizer() x=vectorizer.fit_transform(
复制链接

扫一扫