【读论文】Hash Embeddings for Efficient Word Representations

最新推荐文章于 2023-11-30 20:50:06 发布

明子哥哥

最新推荐文章于 2023-11-30 20:50:06 发布

阅读量1k

点赞数

分类专栏： keep learning 文章标签： NLP Embedding 读论文

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mingo220/article/details/103170580

版权

Hash Embedding结合了常规word embedding和随机hash函数，适用于大规模词汇表，无需预处理字典，训练后无需词汇修剪。实验显示其性能与常规Embedding相当，解决了忽略低频词、词汇表压缩等问题，具备动态扩展和隐式词汇修剪能力。

摘要由CSDN通过智能技术生成

abstract

Hash Embedding可以看作是普通word embedding 和通过随机hash 函数得到的词嵌入的interposition (插补)。

在Hash Embedding中，每个token由k个d维embedding vectors和一个k维weight vector表示，token的最终d维表示是两者的乘积。

实验表明，Hash Embedding可以轻松处理包含数百万个token的庞大词汇表。使用Hash Embedding时，无需在训练前创建字典，也无需在训练后进行任何形式的词汇修剪。使用Hash Embedding训练的模型表现出的性能至少与在各种任务中使用常规Embedding训练的模型具有相同的性能水平。

Introduction

经典的word embedding表示方法存在的问题：词表过大时，极大的增加神经网络参数量。

传统解决词表过大的方法：

1. 忽略低频词、停用词。问题：有些低频词或停用词在特定任务中可能是关键信息。例如“and”在一个逻辑相关的任务中是非常重要的。

2.Remove non-discriminative tokens after training：选取最有效的token。问题：性能下降、很多任务不合适

3. 压缩词向量：有损压缩(量化等)

使用Hash Embedding能有效避免上述方法的问题，并且有很多优点：

1. 使用Hash Embedding时，无需事先创建字典，并且该方法可以处理动态扩展的词汇表。

2. Hash Embedding具有能够隐式词汇修剪的机制。

3. Hash Embedding基于Hash，但具有可训练的机制，可以处理有问题的冲突。

4. Hash

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【读论文】Hash Embeddings for Efficient Word Representations

abstractHash Embedding可以看作是普通word embedding 和通过随机hash 函数得到的词嵌入的interposition (插补)。在Hash Embedding中，每个token由k个d维embedding vectors和一个k维weight vector表示，token的最终d维表示是两者的乘积。实验表明，Hash Embedding可以轻松处理包...
复制链接

扫一扫

专栏目录

明子哥哥 CSDN认证博客专家 CSDN认证企业博客

码龄9年

22: 原创

11万+: 周排名

143万+: 总排名

6万+: 访问

: 等级

622: 积分

6: 粉丝

23: 获赞

12: 评论

151: 收藏

私信

关注

热门文章

分类专栏

理财
python 3篇
pyspark 5篇
keep learning 4篇
实战总结 10篇
NLP 3篇
java 1篇

最新评论

深度学习中常用乘法矩阵乘、点乘、内积
洛兮银儿: 请问第二个外积，你说又叫点乘，那是不是就是深度学习中的dot product呀？
计算三个经纬度坐标的夹角
山中人_Kong: 以上评论第二点错误可以忽略，l1的实际传参格式为[经度，纬度]
计算三个经纬度坐标的夹角
山中人_Kong: 发现3个问题： 1）第28行空格会导致缩进问题； 2）get_angle函数传参l1，l2和l3的格式没有定义，经纬度之间如果用逗号隔开会出错； 3）计算结果错误，验证了两组数据输出结果都不对。
tensorflow设置部分参数可训练，冻结部分参数
zyr_freedom: 这个代码片段可以完成网络训练时部分层梯度不更新，也就是梯度固定；但是你也可以选择保存所有参数，也就是说参数的更新和保存不是在一起完成的，都可以自由选择的。
tensorflow设置部分参数可训练，冻结部分参数
print('多喝热水'): 博主请问一个问题，我在更改了update_vars_list里的参数后，网络保存下来的checkpoint文件里只有update_vars_list包含的参数，举个例子，我的网络是16层的网络，现在只训练后三层，冻结后checkpoint从保存16层的网络参数变成了只保存后三层的网络参数，这样是对的吗？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。