P
(
Y
∣
X
)
=
P
(
X
∣
Y
)
P
(
X
)
P(Y|X)=\frac{P(X|Y)}{P(X)}
P(Y∣X)=P(X)P(X∣Y)
#!/usr/bin/python
-- coding: utf-8 --
“”"
文本向量化方法1
统计词频
“”"
print(doc)
#feature_extraction 文本向量化
import sklearn.feature_extraction.text as t2v
text = [‘纽约市 初步 初步 迹象 显示 初步’,
‘初步 迹象 显示 这是 蓄意’,
‘也 无 明确 证据 显示 迹象’]
vectorizer = t2v.CountVectorizer()
vectors = vectorizer.fit_transform(text)
print(“单词向量:\n”, vectors.todense())
# print(“单词向量:\n”, vectors)
print(“字典”, vectorizer.vocabulary_)
A = " ".join(text)
A = A.split()
A_set = set(A)
print(A_set)
A_dict = dict(zip(A_set,range(len(A_set))))
print(A_dict)