文章目录
自然语言处理与词嵌入
词汇表征(Word Representation)
Visualizing word embeddings——t-SNE算法
Properties of Word Embeddings——Cosine similarity
Embedding matrix
学习词嵌入(Learning Word Embeddings)
Word2Vec
Skip-Gram模型
负采样(Negative Sampling)
将多分类问题转化成若干个(较少的)二分类问题,负采样根据如下分布随机采样: P ( w i ) = f ( w i ) 3 4 ∑ j = 1 10 , 000 f ( w j ) 3 4 P\left(w_{i}\right)=\frac{f\left(w_{i}\right)^{\frac{3}{4}}}{\sum_{j=1}^{10,000} f\left(w_{j}\right)^{\frac{3}{4}}} P(wi)=∑j=110,000f(wj)43f(wi)43
GloVe 词向量(GloVe Word Vectors)
算法思想
权重选取
估计参数取均值
情感分类(Sentiment Classification)
平均值运算-情感分类算法
RNN-情感分类算法
词嵌入除偏(Debiasing Word Embeddings)
- 确定bias direction
- 去除偏差,使得其在bias轴的垂直方向,从而与bias无关
- 使得bias的元素点与原点的距离相同