task02

最新推荐文章于 2023-12-13 22:21:07 发布

无价攻城狮

最新推荐文章于 2023-12-13 22:21:07 发布

阅读量79

点赞数

分类专栏：笔记文章标签：自然语言处理神经网络深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45722145/article/details/120359959

版权

笔记专栏收录该内容

26 篇文章 0 订阅

订阅专栏

NLP-------Bert句子分类

这个任务给我的感觉非常明确，让我印象特别深的是Bert大牛的范式“预训练+微调”。

明确输入输出：电影或者产品的评价。输出：判断这个评价是正面的还是负面的。
输入：两句话。输出：两句话是否是同一个意思。
微调的理解：针对特定任务需要，在BERT模型上增加一个任务相关的神经网络，比如一个简单的分类器，然后在特定任务监督数据上进行微调训练。（微调的一种理解：学习率较小，训练epoch数量较少，对模型整体参数进行轻微调整）。

BERT模型结构：

BERT模型结构基本上就是Transformer的encoder部分，BERT-base对应的是12层encoder，BERT-large对应的是24层encoder。

输入BERT模型输入有一点特殊的地方是在一句话最开始拼接了一个[CLS] token，如下图所示。这个特殊的[CLS] token经过BERT得到的向量表示通常被用作当前的句子表示。除了这个特殊的[CLS] token，其余输入的单词类似篇章2.2的Transformer。BERT将一串单词作为输入，这些单词多层encoder中不断向上流动，每一层都会经过 Self-Attention和前馈神经网络。
输出：BERT输入的所有token经过BERt编码后，会在每个位置输出一个大小为 hidden_size（在 BERT-base中是 768）的向量。结合datawhale大佬生动的教程图慢慢品味领会，i了i了

预训练任务

BERT是如何无监督进行训练的呢？如何得到有效的词、句子表示信息呢？以往的NLP预训练通常是基于语言模型进行，比如给定语言模型的前3个词，让模型预测第4个词。但是，BERT是基于Masked language model进行预训练的：将输入文本序列的部分（15%）单词随机Mask掉，让BERT来预测这些被Mask的词语。结合datawhale大佬生动的教程图慢慢品味领会，i了i了

未完待补，害前两个任务都得补

无价攻城狮

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

无价攻城狮 CSDN认证博客专家 CSDN认证企业博客

码龄5年

34: 原创

54万+: 周排名

181万+: 总排名

1万+: 访问

: 等级

388: 积分

13: 粉丝

3: 获赞

2: 评论

3: 收藏

私信

关注

热门文章

分类专栏

NLP 1篇
笔记 26篇
XGB、LBG、GBDT 2篇
GBDT分类与回归 1篇
异常检测 6篇
SQL 1篇

最新评论

task02
普通网友: 博主的技术面很广哦，而且都是干货文章，小菜鸟求带，可以加你微信随时和您交流吗，感谢
task_1
Rex~: 不错本来准备自己总结一下，比我的全面。
successfulHomework_1
不正经的kimol君: 忍不住就是一个赞，写得很棒，欢迎回赞哦~

大家在看

Bug记录：VS2022报错LINK : fatal error LNK1104: 无法打开文件“ucrtd.lib”以及无法打开“stdio.h“等一堆源文件

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。