特征抽取工具-Transformer-bert

最新推荐文章于 2025-02-19 09:56:48 发布

Coding~Man

最新推荐文章于 2025-02-19 09:56:48 发布

阅读量997

点赞数

分类专栏：深度学习和机器学习文章标签： transformer bert 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40341502/article/details/124966720

版权

本文介绍了从word2vec到BERT的语言模型学习，重点解析了Transformer模型的multi-head attention机制。BERT通过上下句预测和遮蔽语言模型进行预训练，其核心是12层的Transformer结构，用于抽取每个字的特征。最后，通过联合优化上下句预测和字的预测任务的损失来进行模型训练。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

如何快速学习一个语言模型：
word2vec：用中心词预测上下文或者用上下文预测中心词。
GPT：用上一个字预测下一次字。
bert:用这个字本身的特征预测这个字。
第一步：搞清数据如何变成标签数据。即输入输出和标签是什么。
第二步：搞清楚模型结构。
第三部：损失函数是什么，一般是singmord二分类和softmax多分类。
词向量：将词转换成向量表示。

一个好的词向量应该有下面的几个特性：
1:满足相似性，相关，比如：两个相似词的词向量也要相似。
2:满足相加性。比如：词向量中国+词向量首都=词向量北京
请添加图片描述

如何训练词向量
比如：“网络的结构如下图所示”，这句话如何转换成词向量。
每次取5个词：“网络的结构“，中间的”的“作为标签，左右边的”网络结构“作为输入。设计一个网络比如下面的网络，每个词设置成200维度的向量，将这个4个词作为输入，抽取特征，将抽完的特征接一个softmax分类器，类别为字典中词的个数，即可以得到一个词向量。有一个输出，标签是中间的词。然后不断的向后扫面这一句话“络的结构如”。大量的标注样本将会产生。通过上下文预测中间的字叫CBOW。另外一种通过中间的词预测两边的词，叫做Skip-gram.

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。