NLP基础（一）：初识自然语言处理和词向量

最新推荐文章于 2022-11-28 19:51:42 发布

博途慧算

最新推荐文章于 2022-11-28 19:51:42 发布

阅读量624

点赞数 1

分类专栏： NLP # NLP基础文章标签：神经网络机器学习深度学习自然语言处理

本文链接：https://blog.csdn.net/lygeneral/article/details/106438512

版权

1.词袋模型（BOW）

词袋模型（Bag of Words, BOW）是一种通过词频将句子转化为向量表示的方法，不考虑句子的顺序，只考虑词表中单词在这个句子中出现的次数。
例句：
Jack lives in Shanghai.
Bob wants to go to Shanghai.
对于这两个句子中出现的单词，使用词袋模型形成词表：

['bob', 'go', 'in', 'jack', 'lives', 'shanghai', 'to', 'wants']

因此，这两个句子的向量表示为

s1=[0, 0, 1, 1, 1, 1, 0, 0] s2=[1, 1, 0, 0, 0, 1, 2, 1]

可使用sklearn中的CountVectorizer()函数实现BOW模型

from sklearn.feature_extraction.text import CountVectorizer
corpus = [
	"Jack lives in Shanghai.",
    "Bob wants to go to Shanghai."
]
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names())
print(X.toarray())

# 输出
['bob', 'go', 'in', 'jack', 'lives', 'shanghai', 'to', 'wants']
[[0 0 1 1 1 1 0 0]
 [1 1 0 0 0 1 2 1]]