第一部分-CSDN博客

▾ 第一部分

▾ 关键词：

•自然语言处理（NLP）.词向量（Word Vectors）.奇异值分解(Singular Value Decomposition). Skip-gram. 词组的持续爆（CBOW）,负采样样本（Negative Sampling）

▾ 词向量

• What：要NLP转为ML问题，第一步就是将符号数学化

• Why：词向量编码词组，使它代表在词组的N维空间中的一个点（而点与点之间有距离的远近等关系，可以体现深层一点的信息）。每一个词向量的维度都可能会表征一些意义（物理含义），这些意义我们用“声明speech”来定义。例如，语义维度可以用来表明时态（过去与现在与未来），计数（单数与复数），和性别（男性与女性）

▾ How：编码方式

▾ one-hot vector

• What：假设我们的词库总共有n个词，那我们开一个1*n的高维向量，而每个词都会在某个索引index下取到1，其余位置全部都取值为0

• How：

• Disadvantge：词向量没办法给我们任何形式的词组相似性权衡：【】／当然也会造成维数灾难。

• Disadvantge —Reason：你开了一个极高维度的空间，然后每个词语都会占据一个维度，因此没有办法在空间中关联起来。

• Improve：因此我们可能可以把词向量的维度降低一些，在这样一个子空间中，可能原本没有关联的词就关联起来了。

▾ 基于SVD的方法

• What：一种构造词嵌入（词向量）的方法

▾ How：我们首先会遍历所有的文本数据集，然后统计词出现的次数，接着用一个矩阵X来表示所有的次数情况，紧接着对X进行奇异值分解得到一个的分解。然后用U的行（rows）作为所有词表中词的词向量。对于矩阵X，我们有几种选择，咱们一起来比较一下：

▾ X的构建一：词-文档矩阵：

• What：我们猜测：相互关联的词组同时出现在相同的文件中的概率很高。比如：银行、钱等可能出现在一起，而银行，香蕉不会一直出现。