话不多说,直接上个python实现文本特征提取的demo,关于里面调用方法比如CountVectorizer参数的解释可以直接看源码。有兴趣自己玩玩吧~
from sklearn.feature_extraction.text import CountVectorizer,TfidfTransformer
import jieba
def text2Feature(texts):
vectoizer=CountVectorizer()
x=vectorizer.fit_transform(texts)
transformer=TfidfTransformer()
tfidf=transformer.fit_transform(x)
words=vectorizer.get_feature_names()
weights=tfidf.toarray()
return words,weights
if __name__=="__main__":
rawData=['深圳地铁三号线正式执行疫情期间夜间停运方案','深圳地铁14号线2022年有望投入运营']
inputData=[]
for i ,j in enumerate(rawData):
tmp=list(jieba.cut(j))
tmp1=' 'join(tmp)
inputData.append(tmp1)
words,weights=text2Feature(inputData)