Albert_zh转化为pytorch版本

最新推荐文章于 2024-08-21 08:37:56 发布

林子要加油

最新推荐文章于 2024-08-21 08:37:56 发布

阅读量1.6k

点赞数 1

分类专栏： pytorch 预训练模型文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/real_ilin/article/details/105961615

版权

背景
由于google提供bert_base_zh的参数太多，模型大太，大约400M，无论是使用bert进行fine-tuning或者是对bert进行再训练的训练成本会变大。所以就对bert进行了一些优化。

主要从以下几个点对bert进行了优化：

词嵌入向量的因式分解
$O (V * H) - >$

最低0.47元/天解锁文章

林子要加油

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
5
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

林子要加油 CSDN认证博客专家 CSDN认证企业博客

码龄7年

110: 原创

5万+: 周排名

127万+: 总排名

24万+: 访问

: 等级

3063: 积分

47: 粉丝

132: 获赞

48: 评论

575: 收藏

私信

关注

热门文章

分类专栏

C++ 1篇
损失函数 1篇
NLP 10篇
深度学习 21篇
pytorch 18篇
问答系统 4篇
Bert 3篇
Linux
NER 1篇
数据集 1篇
笔记 1篇
git 1篇
预训练模型 1篇
模型部署 2篇
tensorflow 2篇
文档工具 1篇
IDE 1篇
机器学习与数据挖掘 8篇
工作效率 3篇
数据结构与算法 20篇
python 7篇
知识图谱 2篇
Paper 1篇
高并发 1篇
大数据计算引擎 1篇
操作系统 2篇
项目管理 1篇
Web 3篇

最新评论

多分类metric的macro-averge与micro-average
我擦嘞发达水果店: 大佬，文章的图片来自哪里呀？能分享一下吗？
Adam与AdamW
*Lisen: 请问下博主，为什么adam在bert的训练中不起作用，具体原因是什么呢？
序列标注之Bi-LSTM-CRF
CSDN_Shaw: 2 中关于动态规划部分的解释不太对吧？你这个动态规划是用在预测时的，而不是计算loss的。因为最后只能找到一条最优路径。而loss函数的第二项，就是要求所有路径的分数和啊。
python 跳出两层循环
林子要加油: else后边是continue的，外边循环是从0到4，内循环j是从6到9，如果j大于7的话，跳出两个循环。
python 跳出两层循环
半颗小螺丝: else 里边应该是break 如果你这样写的话不管进不进 if里边的 break 都会走最下边那个break

最新文章

目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。