WORD2VEC总结

最新推荐文章于 2023-06-22 18:35:15 发布

一只NLP的萌新er

最新推荐文章于 2023-06-22 18:35:15 发布

阅读量326

点赞数

文章标签：自然语言处理

本文链接：https://blog.csdn.net/qq_40377498/article/details/104752451

版权

word2vec
学习word2vec后的一个总结。
word2vec是训练词向量的一种方式，出自论文《Efficient Estimation of Word Representations in Vector Space》中，是谷歌Tomas Mikolov提出的一种开源的训练词向量的工具包。在word2vec中可以通过两种模型：CBOW模型和SKip-gram模型，来训练词向量。CBOW模型是通过上下文预测中心词的方式，而SKip-gram模型是通过中心词预测上下文的方式。
1. 预处理
由于word2vec模型的输入层（即input层）为one-hot独立编码，所以需要对文本进行预处理。预处理的最终目的是形成字典，让每一个单词对应一个ID（即一个编码）。由于英文本身就带有天生的断隔（空格），中文的预处理相比较于英文的预处理来说有些不同且更加困难。
#1.1.中文预处理
中文预处理的过程大概分为以下几步：1.读取文件。2.分词并去停用词。3.统计词频。4.根据词频，按单词出现频繁程度形成字典（一般，单词词频越大，在字典中越靠前）。
#1.2.英文预处理
英文预处理的过程大概分为以下几步：1.读取文件。2.统一单词形式（一般将大写变为小写）并去停用词。3.统计词频。4.根据词频形成字典。
停用词一般是标点符号或者其他一些常用词、数字等。预处理的资料与代码示例在博客上有许多。比如中文语料预处理手记。
2.word2vec模型</

最低0.47元/天解锁文章

一只NLP的萌新er

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
WORD2VEC总结

word2vec学习word2vec后的一个总结。word2vec是训练词向量的一种方式，出自论文《Efficient Estimation of Word Representations in Vector Space》中，是谷歌Tomas Mikolov提出的一种开源的训练词向量的工具包。在word2vec中可以通过两种模型：CBOW模型和SKip-gram模型，来训练词向量。CBOW模型...
复制链接

扫一扫

WORD2VEC总结

“相关推荐”对你有帮助么？