初步了解预训练语言模型BERT

VIP文章搜狐技术产品小编2023

于 2023-07-27 07:30:57 发布

阅读量660

点赞数

文章标签：语言模型 bert 人工智能自然语言处理深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SOHU_TECH/article/details/131971347

版权

本文字数：：4024字

预计阅读时间：12分钟

BERT是由Google提出的预训练语言模型，它基于transformer架构，被广泛应用于自然语言处理领域，是当前自然语言处理领域最流行的预训练模型之一。而了解BERT需要先了解注意力机制与Transformers。

注意力机制

注意力机制（Attention Mechanism）是一种在机器学习和自然语言处理中广泛使用的技术，它可以帮助模型在处理输入数据时集中关注其中最重要的部分，从而提高模型的准确性。

原理

注意力机制最初是从认知神经科学中引入到机器学习领域的，19世纪90年代的威廉·詹姆斯发现人类注意力焦点受到非自主性提示和自主性提示有选择地引导[7]。简单来说，非自主性提示是一种无意注意，例如人会先看到最显眼的物品，而自主性提示是一种有意注意，例如人会根据自己的需要先关注到自己需要到物品。非自主性提示与自主性提示会导致人类神经网络选择性地加强或减弱一些特定的神经元的活动。

在机器学习中，注意力机制模拟了人类的这种认知行为，采用的方式主要是通过查询向量query模拟自主提示，键值向量key模拟非自主提示，二者交互形成注意力焦点，从而有选择的聚合了值向量value（模拟感官输入）最终形成输出[8]。具体的计算过程可以用下图表示：

图1 注意力得分计算示意图

假设有一个查询向量q∈Rq和m个“键—值”对（k1,v1）,...,（km,vm）,其中ki∈Rk，vi∈Rv。在计算注意力得分时，首先通过注意力评分函数a将查询向量q和键向量ki映射成标量，不同的注意力评分函数可以产生不同的注意力汇聚效果，常见的有缩放点积注意力评分函数（公式1）

公式1

再经过softmax运算，得到注意力权重α（公式2），

最低0.47元/天解锁文章

搜狐技术产品小编2023

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
初步了解预训练语言模型BERT

本文字数：：4024字预计阅读时间：12分钟BERT是由Google提出的预训练语言模型，它基于transformer架构，被广泛应用于自然语言处理领域，是当前自然语言处理领域最流行的预训练模型之一。而了解BERT需要先了解注意力机制与Transformers。注意力机制注意力机制（Attention Mechanism）是一种在机器学习和自然语言处理中广泛使用的技术，它可以帮助模型在处理输入数据...
复制链接

扫一扫

搜狐技术产品小编2023 CSDN认证博客专家

CSDN认证企业博客

177: 原创

3万+: 周排名

1万+: 总排名

17万+: 访问

: 等级

2055: 积分

299: 粉丝

381: 获赞

49: 评论

662: 收藏

私信

关注

热门文章

最新评论

前端工程化-VSCode插件集成脚手架和组件库
芯的一天: wow，学到很多。我刚开始接触ts开发框架也是晕头转向。谢谢优质好文指点。
审核中台业务数据进审升级之路
轻松的小希: 您好，咨询下，审核流程和通讯协议内容具体是怎样的呢
UICollection Compositional Layout全详解
weixin_38961887: 你好，请问有办法监听到section内部的滚动事件吗
通过抓包深入分析HTTPS
cmh360: 有个疑问，既然会话秘钥是通过ECHDE算法客户端和服务器端各自算出的，并且用到的参数公钥都是每次临时生成的，那么数字证书中的公钥用来做什么用？
通过抓包深入分析HTTPS
cmh360: 服务端将证书连同CA的公钥一起下发给客户端？有的文章说CA的公钥是预先已经安装在客户端操作系统上了的。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。