特征抽取工具-Transformer-bert

本文介绍了从word2vec到BERT的语言模型学习,重点解析了Transformer模型的multi-head attention机制。BERT通过上下句预测和遮蔽语言模型进行预训练,其核心是12层的Transformer结构,用于抽取每个字的特征。最后,通过联合优化上下句预测和字的预测任务的损失来进行模型训练。
摘要由CSDN通过智能技术生成

如何快速学习一个语言模型:
word2vec:用中心词预测上下文或者用上下文预测中心词。
GPT:用上一个字预测下一次字。
bert:用这个字本身的特征预测这个字。
第一步:搞清数据如何变成标签数据。即输入输出和标签是什么。
第二步:搞清楚模型结构。
第三部:损失函数是什么,一般是singmord二分类和softmax多分类。
词向量:将词转换成向量表示。

一个好的词向量应该有下面的几个特性:
1:满足相似性,相关,比如:两个相似词的词向量也要相似。
2:满足相加性。比如:词向量中国+词向量首都=词向量北京
请添加图片描述

如何训练词向量
比如:“网络的结构如下图所示”,这句话如何转换成词向量。
每次取5个词:“网络的结构“,中间的”的“作为标签,左右边的”网络 结构“作为输入。设计一个网络比如下面的网络,每个词设置成200维度的向量,将这个4个词作为输入,抽取特征,将抽完的特征接一个softmax分类器,类别为字典中词的个数,即可以得到一个词向量。有一个输出,标签是中间的词。然后不断的向后扫面这一句话“络的结构如”。大量的标注样本将会产生。通过上下文预测中间的字叫CBOW。另外一种通过中间的词预测两边的词,叫做Skip-gram.

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值