在使用Uni-gram模型时(也就是词袋法)时,会导致数据非常稀疏。那么我们在训练模型时,就需要更多的数据。会导致存储和计算开销激增。
One-hot-Representation 是最常用的词表示方法。它的优点是简单直观,容易理解。但是会出现词向量维数爆炸的问题,因为有多少个词,词向量就有多少维度,计算开销太大。OneHot还有一个问题,两个在词义上相似的词,在词向量上却没有相似性。
推荐系统 Word2vector
最新推荐文章于 2023-04-06 22:30:44 发布
在使用Uni-gram模型时(也就是词袋法)时,会导致数据非常稀疏。那么我们在训练模型时,就需要更多的数据。会导致存储和计算开销激增。
One-hot-Representation 是最常用的词表示方法。它的优点是简单直观,容易理解。但是会出现词向量维数爆炸的问题,因为有多少个词,词向量就有多少维度,计算开销太大。OneHot还有一个问题,两个在词义上相似的词,在词向量上却没有相似性。