当代码出现问题的时候参考的文章
- 处理下载的数据集
- Python3异常-AttributeError: module 'sys' has no attribute 'setdefaultencoding'
- 通过搜狗新闻语料用word2Vec训练中文模型
- 代码存放仓库
1、在RNN中词使用one_hot表示的问题(使用词嵌入的意义)
![c764a9f71570257e650761653bbaa152.png](https://img-blog.csdnimg.cn/img_convert/c764a9f71570257e650761653bbaa152.png)
- 假设有10000个词
- 每个词的向量长度都为10000,整体大小太大
- 没能表示出词与词之间的关系
- 例如Apple与Orange会更近一些,Man与Woman会近一些,取任意两个向量计算内积都为0
2、词嵌入
定义:指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。
注:这个维数通常不定,不同实现算法指定维度都不一样,通常在30~500之间。
如下图所示: