TF idf文本特征提取

最新推荐文章于 2024-03-02 19:06:33 发布

Dxg_01

最新推荐文章于 2024-03-02 19:06:33 发布

阅读量333

点赞数

本文链接：https://blog.csdn.net/weixin_42394925/article/details/101776017

版权

#TF idf文本特征提取（term frequency词频：某个词在文章中占的频率值（tf））
“”"
1000篇文章
100篇文章-“非常”
10篇文章-“经济”
两篇文章:
文章A（100词）：10次“经济”：
tf:10/100 = 0.1
idf = lg(1000/10)=2
文章B(100词)：10次”非常“
tf = 10/100 = 0.1
idf(由总文件数目除以包含该词语之文件的数目，再将得到的商除以以10为敌的对数得到)
idf = lg(1000/100) = 1
“”"
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
import time
import jieba
def cut_words(text):
“”"
进行中文分词
“”"
text = " ".join(list(jieba.cut(text)))
#做一个强转
print(text)
return text
def ChinsesCount():
data = [“我爱北京天安门”,“天安门上太阳升太阳太阳”,“今天是个好日子”,“我爱你中国”]
data_01 = []
for i in data:
data_01.append(cut_words(i))
transfor = TfidfVectorizer()
data_02 = transfor.fit_transform(data_01)
print(“data_02 ：\n”,data_02.toarray())
print(“特征名字：\n”,transfor.get_feature_names())

if name == ‘main’:
#count_demo()
#count_0demo()
#中文分词
#cut_words(“我爱北京天安们”)
#count_chinese_demo()
ChinsesCount()

Dxg_01

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
TF idf文本特征提取

#TF idf文本特征提取（term frequency词频：某个词在文章中占的频率值（tf））“”"1000篇文章100篇文章-“非常”10篇文章-“经济”两篇文章:文章A（100词）：10次“经济”：tf:10/100 = 0.1idf = lg(1000/10)=2文章B(100词)：10次”非常“tf = 10/100 = 0.1idf(由总文件数目除以包含该词语之文...
复制链接

扫一扫