机器学习：自督导式学习模型

最新推荐文章于 2024-03-01 15:47:28 发布

uncle_ll

最新推荐文章于 2024-03-01 15:47:28 发布

阅读量434

点赞数 9

分类专栏：机器学习文章标签：机器学习人工智能 bert 自督导式学习 hubert

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/uncle_ll/article/details/135036562

版权

机器学习专栏收录该内容

64 篇文章 5 订阅

订阅专栏

outline

在这里插入图片描述

自督导式模型有跨语言的能力

在这里插入图片描述

中文：DRCD的数据集
英文：SQuAD的数据集
在104种语言上进行学习，并在英文上进行微调，结果在中文上效果也比较好。

XTREME Benchmark
只用英文进行微调，在其他剩下的语言中进行测试。

bert可以无视语言的表象，只了解符合背后代表的语义。

看看英文对中文相近的分数算出来，然后取平均值得到MRR，该值越大越好。

语言的信息藏在哪里呢？通过embedding展示，相近的词更接近

英文转化成向量后，并对其进行偏移向量后，能够重构为中文。

可以在英文上测试，并在中文上进行测试。中英文上的embedding是有点差距的。

自督导式模型有跨领域的能力

在这里插入图片描述

把DNA的组成替换成字符型的表示形式进行学习

用bert有明显的提升。不仅学到了语义信息，也学到了一些通用的能力，在其他领域也能有较好的性能，

在DNA 蛋白质音乐上都有所帮助。

pre-trained模型有强化模型的能力
在这里插入图片描述
跨语言学习的能力用在语音回答系统。

终极状态：输入是语音，输出也是语音。

光用hubert是不行的，可以通过中间层后再加几层网络：

在这里插入图片描述
可以把Hubert的输出丢给文字的预训练Bert

在人造的资料上训练Bert

在这里插入图片描述

通过规则生成一些tokens，并将tokens进行映射，之后再送到网络中进行学习。

random产生的资料的效果不好
pair产生资料的效果还是非常明显的
shuffle产生的资料效果还是可以的

token的序列长度是非常重要的。

关注

9
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习：自督导式学习模型

bert具有跨语言，跨领域的能力
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

uncle_ll 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。