昇思MindSpore技术公开课-ChatGLM2

人生嘚节奏

已于 2024-01-19 21:56:17 修改

阅读量933

点赞数 20

文章标签：人工智能 bert

于 2024-01-19 21:46:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39214543/article/details/135707126

版权

本文详细介绍了ChatGLM2的改进，包括其自回归填空技术、新增的注意力机制如FlashAttention和GenAtten，以及训练数据的扩展。同时涵盖了多头注意力、MQA优化和预训练模型的转换方法。文章还讨论了ChatGLM3的特点和工具/观察模式的使用。

摘要由CSDN通过智能技术生成

总结

GLM模型的改进版ChatGLM2，包括其技术解析、代码实现和推理部署的演示情况。首先回顾了GPT模型的基本知识，然后详细讲解了ChatGLM2的自回归填空方法和自回归注意力计算。同时，还介绍了ChatGLM2相较于初代版本的改进，包括训练数据更多、新增了多项注意力和flash attention等特性。最后，提到了ChatGLM3的一些特性。

课程链接第十三课：ChatGLM2_哔哩哔哩_bilibili

Chat GL的技术解析和演示情况以及GPT模型的自回归填空方法和自回归部分的生成过程。

ChatGLM2技术解析和特性介绍

ChatGLM2-6B 是开源中英双语对话模型ChatGLM-6B 的第二代版本，保留初代模型对
话流畅、部署门槛较低等众多优秀特性
GLM模型的自回归填空方法
基于上下文预测下一个token的生成模型

SOVITATION中的掩码方法和模型训练,以及多项注意力和flash attention的应用,旨在提高推理速度。

GenAtten:生成注意力机制，用于序列生成问题，如机器翻译。
多任务学习: 通过多任务学习，模型可以同时进行多个任务的学习和生成
长度预测:通过长度预测，模型可以预测下一个单词的长度，从而更好地生成序列。

解码方面的优化方法一一MQA它在多头注意力基础上实现了头间共享权重。

多头注意力机制:多头注意力机制的计算方式，以及它在序列模型中的应用。
mqa:mqa算法的介绍，包括它的思想和具体计算方式。
注意力机制:注意力机制的计算方式和作用以及它在模型中的应用。

多头注意力机制的不同变种包括multi-Query ttention、multi head attention和group Query attention等在推理速度和模型效果上的表现。

多头注意力机制:介绍了多头注意力机制的计算方式和应用。
讲解了miquery和multi head attention的计算方式和效果比较
多头注意力机制的模型效果和一些技巧。

如何将预训练模型转换为multi-Query ttention

注意力机制的计算过程和实现方法
硬件层面的注意力机制，包括动态计算和硬件优化

Flash Attention技术

作用：旨在优化Transformer模型的计算.
复杂度和空间复杂度.提高计算效率。
硬件结构优化与加速
存储器层次结构和计算效率

在计算过程中如何优化读取和写入速度

图像处理中的读取和写入的实现方式，以及如何在GPU的不同层次之间进行数据传输。

注意力机制的计算方式.包括软注意力和闪存注意力的计算方式以及其优势。

分块计算和动态更新:分块计算和动态更新的方法，避免了全量数据计算和内存存储的开销。
多头注意力:多头注意力的概念和相关代码实现，并提及了注意力掩码的计算方法。
注意力掩码计算: 详细介绍了注意力掩码的计算方法，包括行掩码、列掩码和元素掩码

如何使用注意力和softmax函数来计算注意力概率

如何使用TensorFlow进行编程
手机方面的内容:手机方面的内容，包括手机的组成、操作系统、应用程序等。
AI助手的实现:AI助手的实现包括使用TensorFlow进行编程、使用注意力机制进行语言生成等。

基于mind transformers的推理代码实现了一个交互式对话框可以方便地进行处理和微调

基于MySportTransformers实现对话模型的推理代码
生成代码中的注意力计算和输出形式
输入序列中只有一个词的情况和N个词的情况

矩阵运算、代码演示、模型训练和推理等相关内容

ChatGLM3的升级和新特性
自然语言表达方式的问题

使用lossmask进行训练时需要注意的问题以及ChatGLM3中的四种special token的含义和用法。

设计特殊token来间隔输入内容
special token的含义和使用方式
人工智能模型的对话流程和输出方式

对话模式中的三种类型:chat, tool、codeinterpreter和工具模式,及它们的使用方法和特点。

工具模式:在工具模式下，需要根据特定的token来设定系统角色和输入输出格式。
调用工具:使用工具模式时，需要调用各种工具来完成任务，并根据其输出进行相应的回答。
调用工具Observation可以定位到句子的结尾，从而实现更准确的生成。

如何通过注册工具和输入参数来调用工具并解释了代码解释器的概念和用途

工具模式:在工具模式下，可以通过注册函数和使用工具来实现功能

观察模式: 观察模式下，可以通过观察和反馈来进行模型训练
代码解释器:代码解释器可以作为一种模型，用于执行代码并生成相应的输出。

人生嘚节奏

关注

20
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

人生嘚节奏 CSDN认证博客专家 CSDN认证企业博客

码龄7年

成都锦城学院

14: 原创

39万+: 周排名

15万+: 总排名

1万+: 访问

: 等级

300: 积分

122: 粉丝

148: 获赞

6: 评论

243: 收藏

私信

关注

热门文章

最新评论

YOLOv5 CPU和GPU环境搭建（道路识别）
balabala595959: 你好，请问如果用的是anaconda，这样先pip requirements，再conda装包，两边的包会影响吗？
图像标注工具labelImg安装教程及使用方法
学习使我非常快乐: 我的到在图片区域按W键进行框选这一步为什么会闪退啊？求解答
图像标注工具labelImg安装教程及使用方法
CSDN-Ada助手: 非常感谢您分享这篇有关图像标注工具labelImg的安装教程及使用方法的博客！您的经验和知识对于许多人来说都是非常有价值的。恭喜您继续创作，我们期待您未来更多的分享。如果您需要下一步的创作建议，我们建议您可以分享一些使用labelImg标注图像的案例，这将会更加实用和有趣。再次感谢您的分享！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
利用AidLux实现电力目标检测与实时锁定
CSDN-Ada助手: 非常祝贺您写了这篇关于利用AidLux实现电力目标检测与实时锁定的博客！您的文章很有深度和独特性，可以帮助读者更好地了解电力目标检测和实时锁定的应用。接下来，我建议您可以继续写一些关于AidLux在其他领域的应用和实践经验，这样可以让更多人了解和学习AidLux的使用技巧和方法。再次感谢您的分享，期待您的新作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
基于AidLux实现热成像电力巡检
CSDN-Ada助手: 非常欣赏您的第二篇博客，特别是对于热成像电力巡检的深入探讨。您的文章提到了绝缘子的问题，这也是电力巡检中非常重要的一个环节。我想提供一些补充知识，例如电力保护区的分类以及如何使用热成像相机进行巡检等。同时，也鼓励您继续分享您的经验和见解，期待您的下一篇文章。如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。