embedding 的长短学习

最新推荐文章于 2022-03-24 20:00:35 发布

weixin_42001089

最新推荐文章于 2022-03-24 20:00:35 发布

阅读量399

点赞数

分类专栏：算法文章标签： python 深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42001089/article/details/120418245

版权

算法专栏收录该内容

56 篇文章 2 订阅

订阅专栏

这篇paper很有意思，我们平常使用的embedding 基本上都是定长的，但是想一想对于高频次的特征，其实需要更高维度的emb来表征，但是对于一些低频次的特征，其实不需要那么高维度的emb来表征，容易过拟合，那么怎么来动态的学习这个长度呢，阿里这篇paper就是解决这个事情的，其带来的好处就是节省了存储空间并很好的支持模型特征向量的热启动：

Learning Effective and Efficient Embedding via an Adaptively-Masked Twins-based Layer

具体的可以看解读：

[阿里]通过孪生掩码层来高效的学习特征表示向量

weixin_42001089

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
embedding 的长短学习

这篇paper很有意思，我们平常使用的embedding 基本上都是定长的，但是想一想对于高频次的特征，其实需要更高维度的emb来表征，但是对于一些低频次的特征，其实不需要那么高维度的emb来表征，容易过拟合，那么怎么来动态的学习这个长度呢，阿里这篇paper就是解决这个事情的，其带来的好处就是节省了存储空间并很好的支持模型特征向量的热启动：Learning Effective and Efficient Embedding via an Adaptively-Masked Twins-based La
复制链接

扫一扫

专栏目录

weixin_42001089 CSDN认证博客专家 CSDN认证企业博客

码龄6年

209: 原创

2万+: 周排名

1万+: 总排名

114万+: 访问

: 等级

7645: 积分

1619: 粉丝

1153: 获赞

592: 评论

4646: 收藏

私信

关注

分类专栏

调研 16篇
计算机基础 2篇
后台 1篇
html 1篇
chm 1篇
docker
打包
人工智能机器学习 48篇
skia 7篇
skia中文乱码
神经网络 10篇
github 2篇
Linux 4篇
线程 1篇
强化学习 4篇
spark 5篇
caffe
大数据 9篇
算法 56篇
python 13篇
java 1篇

最新评论

如何自动筛选高质量的指令微调数据喂给大模型？
HHYY_7: 博主您好请问下那个MoDS算法我理解是在一个sft数据集上筛选高质量的数据集，筛选之后的数据集是之前数据集的子集，是不是就是说这个子集做sft之后的效果比原数据集好是吗
如何自动筛选高质量的指令微调数据喂给大模型？
紧警谨: IFD分子分母公式都漏了负号
扩散模型代码剖析
LeafMorning: 你好，想知道跑一个DDPM，图像256×256，t选择300。会占用多少显存？
机器学习实践流程（随机森林+LSTM实践）
m0_61745813: 您好，请问这个是在做关于汽车的故障检测么？
bert实践:关系抽取解读
:P?: 我让gpt写了个标注软件，你把需求告诉gpt他能写出来

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。