![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
乌云tail
这个作者很懒,什么都没留下…
展开
-
NMT平行语料划分数据集
目标:将数据集按比例划分为 train、test、val。对平行语料处理后如下图所示:步骤:随机打乱数据集 划分数据集 划分平行语料代码如下:import osimport randomdef data_split(config, file, train_ratio=0.98, shuffle=True): """ :param config: 数据文件所在的文件夹名 :param file: 要处理数据的文件名(全称) :param原创 2021-12-31 15:10:01 · 1075 阅读 · 0 评论 -
基于pytorch实现Word2Vec(skip-gram+Negative Sampling)
目录word2vec简介语料处理数据预处理训练模型近似训练法参数设定预测及可视化word2vec简介2013 年,Google 团队发表了 word2vec 工具。word2vec 工具主要包含两个模型:跳字模型(skip-gram)和连续词模型(continuous bag of words,简称 CBOW),以及两种高效训练的方法:负采样(negative sampling)和层序 softmax(hierarchical softmax)。类似于f(x)->原创 2021-12-07 16:08:00 · 5576 阅读 · 6 评论 -
No module named “legacy“;Cannot find reference ‘legacy‘ in ‘__init__.py‘
问题描述:torchtext没有名为“legacy”的模块;在“__init__.py”中找不到参考“legacy”。问题原因:在 v0.9.0 版本中,以下"legacy"代码被移至 torchtext.legacy :torchtext.legacy.data.field torchtext.legacy.data.batch torchtext.legacy.data.example torchtext.legacy.data.iterator torchtext.legacy.d原创 2021-11-25 20:27:53 · 3222 阅读 · 3 评论 -
词向量的可视化(2D)
如何对我们通过word2vec模型得的的词向量(.txt文件)进行可视化?步骤如下:1)导入包matplotlib.pyplot、KMeans、PCA;2)读取词向量文件信息,获取所有词数组(array)和词到词向量的映射(dict);3)用for循环得到当前所选词的词向量数组(array);4)将高维向量压缩为二维向量,以此作为可视化图像的X与Y轴坐标;5)设定好维度、颜色、字体后开始画图,最后再为每个词标注信息。代码如下:import matplotlib.py原创 2021-11-23 16:33:00 · 1503 阅读 · 0 评论