TF idf文本特征提取

#TF idf文本特征提取(term frequency词频:某个词在文章中占的频率值(tf))
“”"
1000篇文章
100篇文章-“非常”
10篇文章-“经济”
两篇文章:
文章A(100词):10次“经济”:
tf:10/100 = 0.1
idf = lg(1000/10)=2
文章B(100词):10次”非常“
tf = 10/100 = 0.1
idf(由总文件数目除以包含该词语之文件的数目,再将得到的商除以以10为敌的对数得到)
idf = lg(1000/100) = 1
“”"
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
import time
import jieba
def cut_words(text):
“”"
进行中文分词
“”"
text = " ".join(list(jieba.cut(text)))
#做一个强转
print(text)
return text
def ChinsesCount():
data = [“我爱北京天安门”,“天安门上太阳升太阳太阳”,“今天是个好日子”,“我爱你中国”]
data_01 = []
for i in data:
data_01.append(cut_words(i))
transfor = TfidfVectorizer()
data_02 = transfor.fit_transform(data_01)
print(“data_02 :\n”,data_02.toarray())
print(“特征名字:\n”,transfor.get_feature_names())

if name == ‘main’:
#count_demo()
#count_0demo()
#中文分词
#cut_words(“我爱北京天安们”)
#count_chinese_demo()
ChinsesCount()

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值