文本分类之有多少个不同的单词

逍遥叹~

于 2018-10-21 15:57:37 发布

阅读量155

点赞数

$P(Y|X)=\frac{P(X|Y)}{P(X)}$
#!/usr/bin/python

-- coding: utf-8 --

“”"

文本向量化方法1

统计词频
“”"
print(doc)
#feature_extraction 文本向量化
import sklearn.feature_extraction.text as t2v

text = [‘纽约市初步初步迹象显示初步’,
‘初步迹象显示这是蓄意’,
‘也无明确证据显示迹象’]

vectorizer = t2v.CountVectorizer()

vectors = vectorizer.fit_transform(text)

print(“单词向量:\n”, vectors.todense())

# print(“单词向量:\n”, vectors)

print(“字典”, vectorizer.vocabulary_)

A = " ".join(text)
A = A.split()
A_set = set(A)
print(A_set)
A_dict = dict(zip(A_set,range(len(A_set))))
print(A_dict)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
文本分类之有多少个不同的单词

P(Y∣X)=P(X∣Y)P(X)P(Y|X)=\frac{P(X|Y)}{P(X)}P(Y∣X)=P(X)P(X∣Y)#!/usr/bin/python-- coding: utf-8 --#cangye@hotmail.com“”&quot;文本向量化方法1统计词频“”&quot;print(doc)#feature_extraction 文本向量化import sklearn.fea...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。