BERT_Pytorch下游任务-萌新向

Google - BERT


Tips:本人也是初学者,如有错误,还请不吝赐教
之前一直认为方法论和思维方式才是最重要的,实际的解决方案会随着时间的改变快速更迭,所以一直没有记录的习惯,…

Before BERT

解决方案
很多机器学习领域的任务,或显式或隐式地可以分为两个阶段
- 将问题数据映射到一个潜藏信息的低维空间里,即将原问题里的元素 X 映射为 hx
- 再将 hx 映射到(分类到)(回归到)数据标签y上

在神经网络中这两步骤的界限显得不那么明显,但从迁移学习Transfor Learning、知识蒸馏Knowledge Distillation、微调Fine Fune、提Feature的预训练网络和最后一层分类器Softmax中都可以体会出其中一二

本文主要讲的就是这第一部分:不同于计算机视觉(Computer Vision)里的图像,在计算机里有天然的像素表示。文本(或者更广义上来说的,符号)在计算机里要经过非直观的编码表示,直接丧失了其原有的含义。

如果所有的符号(中文、英文、…)总数是一个确定的数 H 那么简单地进行 One-hot编码 就会形成 H 维度的向量表示。

Word Embedding 的思想就是想让 文本 用更好的更低维的向量 来表示他们各自所代表的语义。

Word Embedding 发展的大致阶段:
- Bag of Word 词袋模型 (TF-IDF、BM25)
- Word 2 Vec (Skip Gram、CBOW、Glove)
- BERT (ELMo、GPT、XLNet、…)


关于 BERT 的介绍 :

Paper:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
Paper:Attention is all you need

本文不讲 BERT 网络结构的具体细节,如果想要了解需要先去了解:

  • Attention (思想:天涯若比邻)(提高了RNN、LSTM的并行度)
    • Self Attention
    • Mutil Attention

概念:

  • Bert = Contextualized Word Embedding
  • Transformer = Seq2Seq model with Self-attention
  • BERT = Unsupervise train 的 transformer

总之,BERT的输入是一个文本序列,而输出是对应每个输入都有一个向量,而下游任务就可以通过这个输出向量来做。


关于英文文本分类任务的介绍:

Code:BERT: 英文语法正确性判断任务


关于中文文本分类任务的介绍:

Code:BERT: 中文好评差评语义分类任务


After BERT

ACL2020 Best PaperBeyond Accuracy: Behavioral Testing of NLP Models with CHECKLIST出来后,对过往的NLP的模型又暴露出了很多问题,BERT也没能幸免(CHECKLIST还发现了Bert存在种族歧视、性别歧视、性取向歧视…在做情感分析时,对于提到特定群体的句子,Bert会直接给出negative的标签),NLP道阻且长。


Reference:
台湾大学 李宏毅教授 课程
介绍BERT的好博客

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值