独热编码无法理解同义词之间的相关性
相关性通过词嵌入解决
通常就像迁移学习一样,用别人训练好的来进行词嵌入。自己训练要较好的
如果想要中文问本可以取最后一个
先用具体数字代表数字,只是离散的id号,如果用这种id做特征向量不利于做相似度计算。词编变成了词索引向量,利用词嵌入技术,转为四维向量
词的数字化表示方法和词嵌入
最新推荐文章于 2022-08-09 21:06:18 发布
独热编码无法理解同义词之间的相关性
相关性通过词嵌入解决
通常就像迁移学习一样,用别人训练好的来进行词嵌入。自己训练要较好的
如果想要中文问本可以取最后一个
先用具体数字代表数字,只是离散的id号,如果用这种id做特征向量不利于做相似度计算。词编变成了词索引向量,利用词嵌入技术,转为四维向量