浅谈BERT

浅谈BERT

本文将主要介绍BERT模型以及BERT相关的一些东西。

过去在NLP的领域通常是一个任务对应一个model,但是今年来已经发展到可以让机器先了解人类的语言再来解决各式各样的NLP任务。可以通过给机器大量的文字,让机器读懂,这个过程叫预训练(pre-train),然后再根据特定的任务给机器特定的有限的有关数据对pre-train的model进行微调(fine-tune)。在这里插入图片描述
这种pre-train的做法类似于人类学习一门语言的过程,比如评价一个人的英语水平往往可以通过考托福,雅思等,做一些列的口语,写作,听力各种各样的题型。但是在学习英语的过程中却不是靠做题,而是靠阅读大量的文字了解了每一个单词的意思,然后针对不同的体型采取相应的方法就可以通过考试了。那这些pre-train的model里面最知名的就是BERT了。

1. What is pre-trained model?

其实在BERT,ELMO出现之前就已经有pre-trained model了,总的来说就是给每一个词一个embedding vector,vector的某一些维度会代表某些语义相关的意思,寓意相近的词之间的vector的相似度会比较高。这样的pre-trained model就是输入一个token然后得到一个embedding(把vector和token对应到一起的表是提前训练好的)这样的技术有很多像是Word2vec,Glove等。

这种model的一个缺点就是如果有新加入的词汇则无法找到对应的embedding。对于英文来说,一种解决方式是把token换成字母,来训练字母对应的embedding。这种做法最出名的叫FastText。
在这里插入图片描述
对于中文来说,由于中文的特殊性(不同的偏旁部首有不同的意思)可以把方块字当作图片来处理,用CNN的model来处理。在这里插入图片描述
然而这种模型最大的缺点就是,不管在什么样的语境下,同样的token得到的一定是同样的embedding,没有考虑上下文的信息。比如说“单身狗”的“狗”和“养只狗”的“狗”明明意思不同但是得到的却是一样的embedding。

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值