One_hot和Word2Vec两种词向量方法的原理及比较

最新推荐文章于 2024-10-03 21:35:00 发布

阴天了

最新推荐文章于 2024-10-03 21:35:00 发布

阅读量7.1k

点赞数 5

分类专栏：自然语言处理文章标签：词向量 word2vec

本文链接：https://blog.csdn.net/sun_xiao_kai/article/details/94589463

版权

文章对比了词向量表示方法One_hot和Word2Vec，指出One_hot方法因稀疏性和无法表达词间关系的局限，逐渐被Word2Vec取代。Word2Vec利用Embedding层和负采样等技术解决这些问题，使意义相似的词在向量空间中靠近。文章详细介绍了Word2Vec的CBOW和skip-gram模型，以及负采样方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

对于文本处理，首要的任务是要对非结构化数据进行结构化处理，由此诞生了词向量表示的方法，再众多词向量表示方法中，尤其以One_hot和word2vec两种方法最常用，下面也针对这俩方法进行阐述

One_hot方法

One_hot方法是最简单的一种方法，也是出现最早的一种方法，其原理就比如一个语料有M各词，其中每一个词的One_hot表示方式为当前词用1表示，其余用0表示，也就是说语料有多少词，那么词向量的维度就是多少，而且词向量形式如[0，0，......，1，0，0，......]，其中第i个词为1，其余为0。
从One_hot的原理不难发现，当语料中添加新的词，那么每个词的词向量就会发生变化，而且向量中充斥着大量的0，使得过于稀疏，除此之外，语料有多大，词向量的维度就有多大，使得最终的矩阵变得过于庞大，不利于存储及计算。尤其是One_hot不能表示词语之间的关系，比如猫，老鼠，直观上很容易理解的到猫和老鼠有比较强的关系，如果用One_hot来表示，结果就是
“猫”：[0,0,0,1,0,0,0]
“老鼠”：[0,0,1,0,0,0,0]
那么两个向量做内积，就很容易发现[0,0,0,1,0,0,0] x[0,0,1,0,0,0,0] = 0，最后的结果就是毫无关系，这显然不太符合实际，所以再现在One_hot方法较少的被用到实际项目中了。
针对One_hot存在的问题，Hinton提出了分布式表示方法，很好的解决了One_hot的缺陷。其中最具代表的就是word2vec