作为当下最先进的深度学习架构之一,Transformer 被广泛应用于自然语言处理领域。它不单替代了以前流行的循环神经网络(recurrent neural network,RNN)和长短期记忆(long short-term memory,LSTM)网络,并且以它为基础衍生出了诸如 BERT、GPT-3、T5 等知名架构。
📙《BERT基础教程:Transformer大模型实战》示意图丰富,逐步拆解大模型复杂原理,循序渐进,引导你亲手训练和理解 BERT 模型。内容全面,触类旁通
本书用简单的文字清晰阐释 BERT 背后的复杂原理,让你轻松上手 NLP 领域的里程碑式模型。本书内含 200+ 张示意图,示例涵盖文本分类、文本摘要、问答等 常见任务。
我给大家准备了一份全套的《AI大模型零基础入门+进阶学习资源包》,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。😝有需要的小伙伴,可以VX扫描下方二维码免费领取🆓
【内容简介】
本书聚焦谷歌公司开发的 BERT 自然语言处理模型,由浅入深地介绍了 BERT 的工作原理、BERT 的各种变体及其应用。本书呈现了大量示意图、代码和实例,详细解析了如何训练 BERT 模型、如何使用 BERT 模型执行自然语言推理任务、文本摘要任务、问答任务、命名实体识别任务等各种下游 任务,以及如何将 BERT 模型应用于多种语言。通读本书后,读者不仅能够全面了解有关 BERT 的各种概念、术语和原理,还能够使用 BERT 模型及其变体执行各种自然语言处理任务。
书籍目录
第一部分 开始使用 BERT
第 1 章 Transformer 概览
1.1 Transformer 简介
1.2 理解编码器
1.2.1 自注意力机制
1.2.2 多头注意力层
1.2.3 通过位置编码来学习位置
1.2.4 前馈网络层
1.2.5 叠加和归一组件
1.2.6 编码器总览
1.3 理解解码器
1.3.1 带掩码的多头注意力层
1.3.2 多头注意力层
1.3.3 前馈网络层
1.3.4 叠加和归一组件
1.3.5 线性层和 softmax 层
1.3.6 解码器总览
1.4 整合编码器和解码器
1.5 训练 Transformer
1.6 小结
1.7 习题
1.8 深入阅读
第 2 章 了解 BERT 模型
2.1 BERT 的基本理念
2.2 BERT 的工作原理
2.3 BERT 的配置
2.3.1 BERT-base
2.3.2 BERT-large
2.3.3 BERT 的其他配置
2.4 BERT 模型预训练
2.4.1 输入数据
2.4.2 预训练策略
2.4.3 预训练过程
2.5 子词词元化算法
2.5.1 字节对编码
2.5.2 字节级字节对编码
2.5.3 WordPiece
2.6 小结
2.7 习题
2.8 深入阅读
第 3 章 BERT 实战
3.1 预训练的 BERT 模型
3.2 从预训练的 BERT 模型中提取嵌入
3.2.1 Hugging Face 的Transformers 库
3.2.2 BERT 嵌入的生成
3.3 从 BERT 的所有编码器层中提取嵌入
3.4 针对下游任务进行微调
3.4.1 文本分类任务
3.4.2 自然语言推理任务
3.4.3 问答任务
3.4.4 命名实体识别任务
3.5 小结
3.6 习题
3.7 深入阅读
第二部分 探索 BERT 变体
第 4 章 BERT 变体(上):ALBERT、RoBERTa、ELECTRA 和 SpanBERT
4.1 BERT 的精简版 ALBERT
4.1.1 跨层参数共享
4.1.2 嵌入层参数因子分解
4.1.3 训练 ALBERT 模型
4.1.4 对比 ALBERT与 BERT
4.2 从 ALBERT 中提取嵌入
4.3 了解 RoBERTa
4.3.1 使用动态掩码而不是静态掩码
4.3.2 移除下句预测任务
4.3.3 用更多的数据集进行训练
4.3.4 以大批量的方式进行训练
4.3.5 使用字节级字节对编码作为子词词元化算法
4.4 了解 ELECTRA
4.4.1 了解替换标记检测任务
4.4.2 ELECTRA 的生成器和判别器
4.4.3 训练 ELECTRA 模型
4.4.4 高效的训练方法
4.5 用 SpanBERT 预测文本段
4.5.1 了解 SpanBERT 的架构
4.5.2 深入了解 SpanBERT
4.5.3 将预训练的 SpanBERT 用于问答任务
4.6 小结
4.7 习题
4.8 深入阅读
第 5 章 BERT 变体(下):基于知识蒸馏
5.1 知识蒸馏简介
5.2 DistilBERT 模型——BERT 模型的知识蒸馏版本
5.2.1 教师−学生架构
5.2.2 训练学生 BERT 模型(DistilBERT 模型)
5.3 TinyBERT 模型简介
5.3.1 教师−学生架构
5.3.2 TinyBERT 模型的蒸馏
5.3.3 最终损失函数
5.3.4 训练学生 BERT 模型(TinyBERT 模型)
5.4 将知识从 BERT 模型迁移到神经网络中
5.4.1 教师−学生架构
5.4.2 训练学生网络
5.4.3 数据增强方法
5.5 小结
5.6 习题
5.7 深入阅读 第三部分 BERT 模型的应用
第 6 章 用于文本摘要任务的BERTSUM 模型
6.1 文本摘要任务
6.1.1 提取式摘要任务
6.1.2 抽象式摘要任务
6.2 为文本摘要任务微调 BERT 模型
6.2.1 使用 BERT 模型执行提取式摘要任务
6.2.2 使用 BERT 模型执行抽象式摘要任务
6.3 理解 ROUGE 评估指标
6.3.1 理解 ROUGE-N 指标
6.3.2 理解 ROUGE-L 指标
6.4 BERTSUM 模型的性能
6.5 训练 BERTSUM 模型
6.6 小结
6.7 习题
6.8 深入阅读
第 7 章 将 BERT 模型应用于其他语言
7.1 理解多语言 BERT 模型
7.2 M-BERT 模型的多语言表现
7.2.1 词汇重叠的影响
7.2.2 跨文本书写的通用性
7.2.3 跨类型特征的通用性
7.2.4 语言相似性的影响
7.2.5 语码混用和音译的影响
7.3 跨语言模型
7.3.1 预训练策略
7.3.2 预训练 XLM 模型
7.3.3 对 XLM 模型的评估
7.4 理解 XLM-R 模型
7.5 特定语言的 BERT 模型
7.5.1 法语的 FlauBERT 模型
7.5.2 西班牙语的 BETO 模型
7.5.3 荷兰语的 BERTje 模型
7.5.4 德语的 BERT 模型
7.5.5 汉语的 BERT 模型
7.5.6 日语的 BERT 模型
7.5.7 芬兰语的 FinBERT 模型
7.5.8 意大利语的 UmBERTo 模型
7.5.9 葡萄牙语的 BERTimbau 模型
7.5.10 俄语的 RuBERT 模型
7.6 小结
7.7 习题
7.8 深入阅读
第 8 章 Sentence-BERT 模型和特定领域的 BERT 模型
8.1 用 Sentence-BERT 模型生成句子特征
8.1.1 计算句子特征
8.1.2 了解 Sentence-BERT 模型
8.2 sentence-transformers 库
8.2.1 使用 Sentence-BERT 计算句子特征
8.2.2 计算句子的相似度 .
8.2.3 加载自定义模型
8.2.4 用 Sentence-BERT 模型寻找类似句子
8.3 通过知识蒸馏迁移多语言嵌入
8.3.1 教师−学生架构
8.3.2 使用多语言模型
8.4 特定领域的 BERT 模型:ClinicalBERT 模型和BioBERT 模型
8.4.1 ClinicalBERT 模型
8.4.2 BioBERT 模型
8.5 小结
8.6 习题
8.7 深入阅读
第 9 章 VideoBERT 模型和BART 模型
9.1 VideoBERT 模型学习语言及视频特征
9.1.1 预训练 VideoBERT 模型
9.1.2 数据源和预处理
9.1.3 VideoBERT 模型的应用
9.2 了解 BART 模型
9.2.1 BART 模型的架构
9.2.2 比较不同的预训练目标
9.2.3 使用 BART 模型执行文本摘要任务
9.3 探讨 BERT 库
9.3.1 ktrain 库
9.3.2 bert-as-service 库
9.4 小结
9.5 习题
9.6 深入阅读 习题参考答案
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料。包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
😝有需要的小伙伴,可以VX扫描下方二维码免费领取🆓
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程扫描领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程扫描领取哈)
👉4.大模型落地应用案例PPT👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程扫描领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程扫描领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程扫描领取哈)
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓