K-Means聚类算法演示及可视化展示123456789#导入包from sklearn.cluster import KMeansX = [[0.0888, 0.5885],

最新推荐文章于 2024-04-13 09:49:12 发布

jh035512

最新推荐文章于 2024-04-13 09:49:12 发布

阅读量645

点赞数

文章标签：算法 kmeans 聚类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jh035512/article/details/128077673

版权

Word2Vec简介

自然语言处理的核心概念之一是如何量化单词和表达式，以便能够在模型环境中使用它们。语言元素到数值表示的这种映射称为词嵌入。

Word2Vec是一个词嵌入过程。这个概念相对简单：通过一个句子一个句子地在语料库中循环去拟合一个模型，根据预先定义的窗口中的相邻单词预测当前单词。

为此，它使用了一个神经网络，但实际上最后我们并不使用预测的结果。一旦模型被保存，我们只保存隐藏层的权重。在我们将要使用的原始模型中，有300个权重，因此每个单词都由一个300维向量表示。

请注意，两个单词不必彼此接近的地方才被认为是相似的。如果两个词从来没有出现在同一个句子中，但它们通常被相同的包围，那么可以肯定它们有相似的意思。

Word2Vec中有两种建模方法：skip-gram和continuous bag of words，这两种方法都有各自的优点和对某些超参数的敏感性。

当然，你得到的词向量取决于你训练模型的语料库。一般来说，你确实需要一个庞大的语料库，有维基百科上训练过的版本，或者来自不同来源的新闻文章。我们将要使用的结果是在Google新闻上训练出来的。

简单可视化

自定义一个很小的语料库，尝试给出Word2Vec的简单可视化：

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

import gensim

%matplotlib inline

from gensim.models import Word2Vec

from sklearn.decomposition import PCA

from matplotlib import pyplot

# 训练的语料

sentences = [['this', 'is', 'the', 'an', 'apple', 'for', 'you'],

['this', 'is', 'the', 'an', 'orange', 'for', 'you'],

['this', 'is', 'the', 'an', 'banana', 'for', 'you'],

['apple','is','delicious'],

['apple','is','sad'],

['orange','is','delicious'],

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

jh035512 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。