大模型专栏介绍
😊你好,我是小航,一个正在变秃、变强的文艺倾年。
🔔本文为大模型专栏子篇,大模型专栏将持续更新,主要讲解大模型从入门到实战打怪升级。如有兴趣,欢迎您的阅读。
💡适合人群:本科生、研究生、大模型爱好者,期待与你一同探索、学习、进步,一起卷起来叭!
🔗篇章一:本篇主要讲解Python基础、数据分析三件套、机器学习、深度学习、CUDA等基础知识、学习使用AutoDL炼丹
🔗篇章二:本篇主要讲解基本的科研知识、认识数据和显卡、语言模型如RNN、LSTM、Attention、Transformer、Bert、T5、GPT、BLOOM、LLama、Baichuan、ChatGLM等系列、强化学习教程、大模型基础知识及微调等
🔗篇章三:本篇主要讲解智能对话、大模型基础实战如Ollama、Agent、QLoar、Deepspeed、RAG、Mobile Agent等、大模型领域前沿论文总结及创新点汇总
Zotero 7
0.安装:
🔗参考链接:Zotero 7安装
1.注册账号密码:
🔗Zotero 7注册
2.设置文件同步方式为坚果云:
Zotero官方只免费提供300MB空间,估计100篇文献就满了。官方的云空间售价如下,并不便宜:
坚果云免费版没有储量上限,只有流量上限:上传流量1GB/月,下载流量3GB/月,对文献阅读来说,基本够用
🔗坚果云
登录->右上角账号名称->账户信息->安全选项->第三方应用管理->添加应用,配置完WebDav应用后,出现系统自动生成的密码信息。
验证服务器:
3.修改数据存储位置:
Zotero默认的文献存储路径为C:\Users\username\Zotero
,我们需要把文献保存路径改到其它盘,防止C盘越用越大。修改完成后,需要手动把默认路径的文件夹内容复制一份到新的文件夹中,再重启Zotero,完成修改。
4.插件安装:
工具-插件:
安装插件市场后(zotero-addons.xpi
):
重启应用:
插件推荐:
- Zotero Bette Notes——强大的笔记功能,自动生成思维导图
- Jasminum茉莉花插件——中文文献资源抓取、管理
- Zotero PDF Rename—— PDF重命名.
- Zotero Style ——标签分栏与阅读进度可视化管理
- zotero IF——自动匹配文献影响因子和分区
- PDF Figure——获取论文中的图表信息,便于读图
- Translate for Zotero——简单粗暴的划词翻译
- Zotero Connector——🔗配合浏览器插件进行下载文献
- Scholaread——文献翻译手机阅读
- Zotero Scihub——下载英文文献
- zotcard——边阅读边记录卡片
- gree frog——解决影响因子不显示问题
- Reading list ——阅读状态管理
- chartero——论文可视化管理
- zotero-reference——一键抓取参考文献
- scite Plugin for zotero——一键判断论文是否靠谱
- Tag——自定义文献标签
- Keep Zotero——后台常驻Zotero软件,避免抓取文献等问题
- Notero——同步Zotero中的论文条目至Notion数据库中
- Del Item with Attachment——删除时管理条目、附件和笔记
- ZotFile——按照设定格式,自动重命名文件
- Zotero connector——网页文献抓取,自动生成条目
5.文献阅读:
🔗论文示例:Attention Is All You Need
导入文献:
文献笔记(Better Notes
):
添加注释笔记:
添加条目笔记:
添加独立笔记(主笔记):
基于Kimi
总结文献:
🔗Kimi官网:https://kimi.moonshot.cn
如果忘了PDF的存储位置,可以右键-打开文件目录找到对应文献PDF:
提示词1:
请帮我总结这篇文献的研究背景,然后总结这篇文献采用了什么研究方法,最终得到了什么研究结论。
条目笔记:
研究背景:
传统的序列转换模型(如语言模型和机器翻译)主要基于复杂的循环神经网络(RNN)或卷积神经网络(CNN),并结合编码器-解码器架构和注意力机制。
这些模型在处理长序列时存在计算效率问题,因为它们需要按顺序逐步处理输入和输出序列,限制了训练过程中的并行化能力。
为了改善这一问题,研究者们提出了各种方法,例如通过分解技巧和条件计算来提高计算效率,但序列计算的基本限制仍然存在。
研究方法:
提出了一种新的网络架构——Transformer,它完全基于注意力机制,不使用递归和卷积。
Transformer 模型包括编码器和解码器,它们通过自注意力和点式全连接层堆叠而成。
引入了多头注意力机制(Multi-Head Attention),允许模型在不同位置的不同表示子空间中联合关注信息。
使用了位置编码(Positional Encoding),以便模型能够利用序列的顺序信息。
采用了残差连接(Residual Connection)和层归一化(Layer Normalization)来提高模型的训练稳定性和性能。
研究结论:
Transformer 模型在两个机器翻译任务(WMT 2014 英德和英法翻译任务)上表现出色,质量优于现有最佳模型,并且在训练时间上显著减少。
在英德翻译任务上,Transformer 模型达到了28.4 BLEU分数,超过了之前所有模型,包括集成模型。
在英法翻译任务上,模型在训练3.5天后,达到了41.8 BLEU分数的新单模型最佳成绩。
通过在英语成分句法分析任务上的应用,证明了Transformer模型能够很好地泛化到其他任务上。
研究表明,基于注意力的模型在未来具有广阔的应用前景,研究者计划将其应用于除文本之外的其他输入和输出模态的问题,并探索局部、受限的注意力机制,以有效处理大型输入和输出,如图像、音频和视频。
独立笔记与条目笔记链接:
实现效果:
双击主笔记:
提示词2:
请你阅读这篇文献并理解,请你回答我第一个问题,这篇文献中有没有讲到注意力机制是什么?
条目笔记:
是的,这篇文献中详细讨论了注意力机制。在文献的第2节“Background”和第3节“Model Architecture”中,作者解释了注意力机制的基本概念,并介绍了它们在Transformer模型中的应用。以下是一些关键点:
1. **注意力机制的定义**:注意力机制通常被描述为将查询(query)和一组键值对(key-value pairs)映射到输出的函数,其中查询、键、值和输出都是向量。输出是值的加权和,权重由查询与相应键的兼容性函数计算得出。
2. **自注意力(Self-attention)**:自注意力是一种特殊类型的注意力机制,它关联单个序列中不同位置的信息,以计算序列的表示。自注意力已成功应用于阅读理解、摘要、文本蕴含和学习任务独立的句子表示等多种任务。
3. **多头注意力(Multi-Head Attention)**:不是执行单个注意力函数,而是将查询、键和值通过不同的线性变换投影多次,然后在这些投影版本上并行执行多个注意力函数,然后将结果合并以产生最终输出。
4. **缩放点积注意力(Scaled Dot-Product Attention)**:这是Transformer中使用的一种特定类型的注意力,通过将查询与所有键的点积结果除以键维度的平方根,然后应用softmax函数来获得权重。
5. **位置编码(Positional Encoding)**:由于Transformer模型不包含递归或卷积,为了使模型能够利用序列的顺序信息,作者引入了位置编码,将其添加到编码器和解码器堆栈底部的输入嵌入中。
6. **注意力的应用**:Transformer模型在编码器-解码器注意力层、编码器自注意力层和解码器自注意力层中使用多头注意力,允许模型在不同位置关注不同信息。
文献中还进一步讨论了注意力机制相对于传统循环层和卷积层的优势,包括计算复杂性、并行化能力和学习长距离依赖的能力。
总结提示词:
请你总结这篇文章,具体要求为告诉我这篇文章的研究背景是什么,通过什么研究方法得到什么样的结论,本篇文章的创新点是什么?
深入学习某块内容提示词:
本篇文章中位置编码在文章的哪一部分,请给我定位,然后向我详细的介绍该方法,让我能够清晰的了解该方法。
关于划词翻译:
PDF Translate 免费插件最多1000字符
不如关闭翻译插件,直接打开有道词典
划词翻译,不会读的单词还可以学习发音:
文献PPT
提示词:
# Role:
你是一个擅长从文档中提取并总结内容,然后生成PPT大纲以及PPT每一页内容的专家
##Skills
1.信息提取与分析:能够快速地从大量信息中提取关健点和核心概念,这对于创建有彤响力的演示文稿至关重要。
2.逻辑结构设计:善于构建清晰的逻辑框架,确保演示内容有条理且易于理解。这包括知道如何组织介绍、主体内容和结论,以及如何合理安排这些内容的顺序。
3.视觉呈现:具备良好的设计感,能够将文本和数据通过视觉元素《如图表、图像和布局)有效地呈现出来,提升信息的吸引力和易读性。
4.摘要和精炼能力:能够将复杂或冗长的信息精炼成简洁有力的点,这对于PPT这种需要简洁表达的格式尤为重要。
5.故事讲述:能够将数据和事实转化为引人入胜的故事,这有助于吸引听众的注意力和增强信息的传达效果。
##Goals:
从用户提供的文档中提取关链信息,并以总-分-总的形式重点归纳和提炼,制作成不少于5页的澳示PPT大纲。
##Constrains:
-直接按<Workflaw>执行。一开始不需要额外的解释
-在提炼和制作PPT时,确保每一页的内容既充实又具有深度,避免过于简化
-注意PPT的视觉设计,使用适当的图表、图片和布局来增强信息的表达和吸引力
-考虑到观众的多样性,确保PPT内容的通俗易懂,尽量避免使用过于专业或复杂的术语
-制作完成的PPT应清楚地展示了从PDF文档中提炼出的核心内容,每一页都应传达一个明确的观点。且整体呈现应符合总-分-总的结构
-以**markdown**形式输出
## Workflow:
###第一步:上传文档
请求用户上传文档
###第二步:分析和理解文档
对于用户上传的文档进行分析和理解。
1.确定文档的**主题"
2.浏览*"目录"",识别主要**章节**和相关的**内页**,以便理解文档结构。
###第三步:内容提炼
1.对于每个章节,提取至少3个关键点,每个关键点都需用序号标明。
2.为每个关键点编写简短的**详细观点描述**,以确保内容的清晰和准确性。
以上完成后,询问用户是否需要按以上内容进行PPT制作。
###第四步:PPT制作
-**每一页PPT**应围绕一个清晰的观点进行设计。
每一页的内容应包括:
1.章节**表明该观点来源于文档的哪个部分。
2.**详细观点描述**列出与该观点相关的至少3个细节。
3.**引发思考的内容**,鼓励观众深入思考所呈现的信息。
4.PPT的最后一页为总结页。应包括对全文核心观点的总结:-以序号形式分条列出主要观点,以帮助观众加深理解和记
##Initialization :
作为<Role>,严格遵守<Constrains>以<Workflow>的顺序和用户对话。
生成示例:
### 第二步:分析和理解文档
文档的主题是《Attention Is All You Need》,这是一篇关于Transformer模型的开创性论文,它提出了一种全新的基于注意力机制的神经网络架构,用于处理序列转换任务,特别是在机器翻译中的应用。
### 第三步:内容提炼
#### 章节与关键点提炼
1. **摘要(Abstract)**
- 1.1 Transformer模型完全基于注意力机制,无需递归和卷积。
- 1.2 在WMT 2014英德和英法翻译任务上取得新的最佳BLEU分数。
- 1.3 证明了Transformer模型能够成功泛化到其他任务,如英语成分句法分析。
2. **引言(Introduction)**
- 2.1 传统的RNN和LSTM在序列建模中的限制,尤其是在并行化方面。
- 2.2 注意力机制允许模型不考虑输入或输出序列中的距离来建模依赖关系。
3. **背景(Background)**
- 3.1 介绍了减少序列计算的目标,以及先前工作中的卷积神经网络基础模型。
- 3.2 自注意力机制在不同任务中的成功应用。
4. **模型架构(Model Architecture)**
- 4.1 编码器和解码器由多层自注意力和逐位置的全连接层堆叠而成。
- 4.2 多头注意力允许模型在不同位置的不同表示子空间中并行关注信息。
5. **注意力机制(Attention)**
- 5.1 缩放点积注意力和多头注意力的介绍。
- 5.2 Transformer模型中注意力的三种不同应用方式。
6. **位置编码(Positional Encoding)**
- 6.1 由于模型中没有递归或卷积,使用位置编码来注入序列顺序信息。
7. **为什么选择自注意力(Why Self-Attention)**
- 7.1 自注意力与循环和卷积层相比,在计算复杂性、并行化能力和学习长距离依赖方面的优势。
8. **训练(Training)**
- 8.1 描述了模型的训练数据、批处理、硬件配置和优化器设置。
9. **结果(Results)**
- 9.1 在机器翻译任务上Transformer模型的性能和训练成本的比较。
- 9.2 不同组件对Transformer性能的影响。
10. **结论(Conclusion)**
- 10.1 Transformer模型在机器翻译任务上的成功和对未来应用的展望。
#### 用户确认
在进行PPT制作之前,请确认是否同意根据以上提炼的内容进行PPT设计。
### 第四步:PPT制作
#### PPT大纲
1. **封面页**
- 标题:《Attention Is All You Need》
- 副标题:Transformer模型及其在机器翻译中的应用
2. **摘要(Abstract)**
- 章节:摘要
- 详细观点描述:
- Transformer模型摒弃了传统的循环和卷积操作。
- 在英德和英法翻译任务上取得显著的性能提升。
- 证明了模型在其他自然语言处理任务上的泛化能力。
3. **引言(Introduction)**
- 章节:引言
- 详细观点描述:
- 传统RNN和LSTM在长序列处理中的局限性。
- 注意力机制在序列建模中的重要性。
4. **模型架构(Model Architecture)**
- 章节:模型架构
- 详细观点描述:
- 编码器和解码器的多层自注意力结构。
- 多头注意力机制的优势。
5. **注意力机制(Attention)**
- 章节:注意力机制
- 详细观点描述:
- 缩放点积注意力的计算方法。
- 多头注意力如何使模型在不同位置关注不同信息。
6. **位置编码(Positional Encoding)**
- 章节:位置编码
- 详细观点描述:
- 位置编码的必要性和实现方式。
- 正弦余弦函数在位置编码中的应用。
7. **为什么选择自注意力(Why Self-Attention)**
- 章节:为什么选择自注意力
- 详细观点描述:
- 自注意力在计算复杂性上的优势。
- 自注意力如何促进长距离依赖的学习。
8. **训练(Training)**
- 章节:训练
- 详细观点描述:
- 训练数据和批处理策略。
- 硬件配置和优化器选择。
9. **结果(Results)**
- 章节:结果
- 详细观点描述:
- Transformer模型在机器翻译任务上的性能对比。
- 不同组件对模型性能的具体影响。
10. **结论(Conclusion)**
- 章节:结论
- 详细观点描述:
- Transformer模型的总体优势和未来应用方向。
- 对注意力机制的进一步研究和模型扩展的展望。
11. **致谢页**
- 表达对合作者和评论者的感谢。
#### 视觉设计提示
- 使用清晰的图表和图像来展示模型架构和注意力机制。
- 使用比较图表来展示Transformer模型与其他模型的性能对比。
- 使用流程图来清晰地展示训练过程和数据批处理。
- 总结页使用列表形式明确列出主要观点。
请确认以上大纲是否满足您的需求,以便我开始PPT的具体制作。
接着回复
可以
PPT大纲生成示例:
# PPT大纲:《Attention Is All You Need》
## 封面页
- 标题:Transformer模型:开启注意力机制新篇章
- 副标题:在机器翻译与自然语言处理中的应用
## 目录页
- 摘要
- 引言
- 模型架构
- 注意力机制
- 位置编码
- 为什么选择自注意力
- 训练细节
- 实验结果
- 结论与展望
- 致谢
## 摘要页
### 摘要
- Transformer:一种全新的神经网络架构
- 无需递归和卷积,仅依赖注意力机制
- 在多任务上展现卓越的性能和泛化能力
## 引言页
### 引言:序列建模的挑战与机遇
- RNN和LSTM的限制:难以并行化处理长序列
- 注意力机制:不受序列距离限制的依赖关系建模
## 模型架构页
### 模型架构:编码器-解码器的新篇章
- 多层自注意力和逐位置全连接网络
- 多头注意力:并行处理不同位置的信息
## 注意力机制页
### 注意力机制:Transformer的内核
- 缩放点积注意力:高效的注意力计算方法
- 多头注意力:多角度并行关注信息
## 位置编码页
### 位置编码:赋予序列位置感
- 正弦余弦函数编码:解决非序列化处理的位置问题
- 位置编码与词嵌入的结合
## 为什么选择自注意力页
### 自注意力:性能与效率的平衡
- 计算复杂性:自注意力的优势
- 并行化能力:超越传统RNN的限制
- 长距离依赖学习:自注意力的天然优势
## 训练细节页
### 训练:打造高性能模型的基石
- 数据和批处理:构建有效的训练策略
- 硬件与优化器:训练效率与稳定性的保障
## 实验结果页
### 结果:Transformer的实力证明
- 机器翻译:性能与成本的双重优势
- 模型变体:探索不同配置下的最优性能
## 结论与展望页
### 结论:迎接注意力机制的未来
- Transformer模型:当前成就与未来潜力
- 扩展应用:探索文本之外的输入输出模态
## 致谢页
- 感谢合作者、评论者和支持者的贡献
---
**备注**:每一页PPT应设计有适当的图表、关键点突出、颜色和字体清晰,确保信息传达有效且吸引观众注意。总结页应简洁明了,便于观众回顾和记忆。
PPT-Ai生成:
🔗讯飞智文:https://zhiwen.xfyun.cn/
选择文本创建:
选择对应的模板配色:
生成效果:
不过这里还是推荐使用我的PPT组会模板,进行二次修改:
阅读
研究性文章:
- 摘要:对于引⾔、相关⼯作和⽅法的总结,⽤的都是⾮专业术语,⼤⽩话讲清楚你做了个啥玩意;
- 引⾔:对于相关⼯作和⽅法的更详细解释,有⼀个上下⽂的逻辑关系;
- 相关⼯作:领域内和你相关、相似的⼀些⼯作发展情况;
- ⽅法:你创新的内容和具体做法;
- 实验:你的⼯作的性能展示,⼀般就是对⽐试验、消融实验和案例分析;
- 总结:⽅法和实验部分的总结,⾔简意赅你做了什么,达到了什么程度。有些期刊还会要求⼀些⽆意义的未来展望。
文献阅读思维:
文献阅读框架通用总结提示词:
请认真阅读这篇文章,请返回以下内容:
- 论文作者:超出两位作者,仅显示两位,结尾加上, et al.
- 关键词和摘要总结
- 关键词:
- 摘要总结:一句话给出概要总结
- 研究设计和结论
- 问题:
- 方法:
- xx方面:xxxxx
- 实验结果:
- xx方面:xxxxx
- 论文贡献
- 优点:
- xx方面:xxxxx
- 缺点:
- xx方面:xxxxx
框架Markdown模板:
- 论文名称:s,2021
- 期刊:
- 影响因子:
- 论文地址:
- 论文代码:
- 论文作者:, et al.
- 关键词和摘要总结
- 关键词:
- 摘要总结:
- 研究设计和结论
- 问题:
- 方法:
- 实验结果:
- 论文贡献
- 优点:
- 缺点:
总结提示词:
请你总结这篇文章,具体要求为告诉我这篇文章的研究背景是什么,通过什么研究方法得到什么样的结论,本篇文章的创新点是什么?
深入学习某块内容提示词:
本篇文章中位置编码在文章的哪一部分,请给我定位,然后向我详细的介绍该方法,让我能够清晰的了解该方法。
写作
📌 [ 笔者 ] 文艺倾年
📃 [ 更新 ] 2024.9.12
❌ [ 勘误 ] /* 暂无 */
📜 [ 声明 ] 由于作者水平有限,本文有错误和不准确之处在所难免,
本人也很想知道这些错误,恳望读者批评指正!