![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
玩转LLM
文章平均质量分 79
L_serein
这个作者很懒,什么都没留下…
展开
-
笔记-《A Survey of Large Language Models》- 尾声
Sutton, S.Schuh, K.Lomeli, L.Mann, E.Perez, N.5547–5569.[Online].[152] J.Austin, A.Odena, M.I.Nye, M.353–355.[177] P.V.ACM, 2022.559–578.Drain, S.Fort, D.4582–4597.Yih, Eds.8410–8423.[240] Q.Zhang, M.Chen, A.He, Y.Cheng, W.原创 2024-03-27 09:00:41 · 787 阅读 · 0 评论 -
笔记-《A Survey of Large Language Models》- 8 总结与未来方向
8 总结与未来方向在这篇综述中,我们回顾了 LLM 的最新进展,并介绍了理解和利用 LLM 的关键概念、发现和技术。我们重点关注大模型(即大小超过 100 亿的模型) ,并未考虑与早期 PLM(例如 BERT 和 GPT-2)的相关内容,因为它们已经在现有文献中得到了很好的综述。具体来说,我们的综述讨论了 LLM 的四个重要方面,即预训练、适配微调、应用和评估。针对每个方面,我们重点介绍了对 LLM 成功至关重要的技术或发现。此外,我们还总结了开发 LLM 的可用资源,并讨论了实现 LLM 的重要原创 2024-03-27 08:59:44 · 434 阅读 · 0 评论 -
笔记-《A Survey of Large Language Models》- 7 能力评测
7 能力评测为了检验 LLM 的有效性和优越性, 已有研究采用了大量的任务和基准数据集来进行实证评估和分析。首先,我们会介绍LLM 在语言生成和语言理解方面的三种基本评估任务。然后会介绍 LLM 在几种更复杂的设定或目标下的高级任务。最后,会讨论现有的基准和实证分析。7.1 基础评测任务在本部分中,我们主要关注 LLM 的三种评估任务,即语言生成、 知识利用和复杂推理。7.1.1 语言生成根据任务定义,现有语言生成的任务主要可以分为语言建模、条件文本生成和代码合成任务。需要原创 2024-03-26 18:29:24 · 719 阅读 · 0 评论 -
笔记-《A Survey of Large Language Models》- 6 使用
6 使用经过预训练或适配微调之后, 使用 LLM 的主要方法是为解决各种任务设计适当的提示策略。一种典型的提示方法是将任务描述和(或)示范(demonstration)以自然语言文本的形式表达的上下文学习(in-context learning, ICL)此外,采用思维链提示(chain-of-thought prompting) [32] 可以通过将一系列中间推理步骤加入提示中来增强 ICL。6.1 上下文学习6.1.1 上下文学习的形式ICL 使用一种由任务描述和(或)作为示范原创 2024-03-26 12:26:23 · 436 阅读 · 0 评论 -
笔记-《A Survey of Large Language Models》- 5 适配微调
5 大语言模型的适配微调LLM 的能力可以进一步适配(adapting)到特定的目标。本节中,我们将介绍两种适配预训练后的 LLM 的方法:指令微调(instruction tuning)和对齐微调(alignment tuning)指令微调(instruction tuning)旨在增强(或解锁) LLM 的能力对齐微调(alignment tuning)旨在将 LLM 的行为与人类的价值观或偏好对齐。5.1 指令微调本质上,指令微调是在自然语言格式的实例(insta原创 2024-03-25 22:15:08 · 380 阅读 · 0 评论 -
笔记-《A Survey of Large Language Models》- 4 预训练
4 预训练预训练为 LLM 的能力奠定了基础。 通过在大规模语料库上进行预训练, LLM 可以获得基本的语言理解和生成能力 [55, 56]。在这个过程中, 预训练语料库的规模和质量对于 LLM 获得强大的能力至关重要。此外,为了有效地预训练 LLM,也需要设计好模型架构、 加速方法和优化技术。第 4.1节讨论数据收集和处理第 4.2节介绍常用的模型架构第 4.3节介绍用于稳定高效地优化 LLM 的训练技巧。4.1 数据收集相比小规模语言模型, LLM 更需要高质量数据来预训练模型原创 2024-03-25 09:23:12 · 1596 阅读 · 0 评论 -
笔记-《A Survey of Large Language Models》- 3 大语言模型资源
3 大语言模型资源3.1 公开可用的模型检查点或 API百亿参数量级别的模型:LLaMA (最大版本 650 亿参数)NLLB(最大版本 545 亿参数)大多在 100 亿至 200 亿之间Flan-T5 (110 亿版本) 可以作为研究指令微调的首选模型CodeGen(11B)是一个为生成代码设计的自回归语言模型,可用作探索代码生成能力的候选模型。对于多语言任务,mT0(13B)可能是一个比较好的候选模型对于中文的下游任务,PanGu-α具有较好的表现百亿参数量级别的模型通常需原创 2024-03-23 06:59:10 · 342 阅读 · 0 评论 -
笔记-《A Survey of Large Language Models》- 2 概述
62]中的实验证明,当模型大小达到680亿时,经过指令微调的LaMDA-PT[63]开始在未见过的任务上显著优于未微调的模型,但对于80亿或更小的模型大小则不会如此。然而, 需要注意的是,数据扩展应该经过谨慎的清理过程,因为预训练数据的质量在模型能力中起着关键作用。正如[33]中所分析的那样,随着给定计算预算的增加,KM扩展法则更偏向于将更大的预算分配给模型大小,而Chinchilla扩展法则则认为模型大小和数据大小应该以相同的比例增加,即在公式(3)中的α和b取相近的值。原创 2024-03-23 06:58:30 · 457 阅读 · 0 评论 -
笔记-《A Survey of Large Language Models》-引言
1 引言语言建模的研究可以分为四个主要发展阶段:统计语言模型(SLM)、神经语言模型(NLM)、预训练语言模型(PLM)、大语言模型(LLM)·统计语言模型(SLM):基本思想是基于马尔可夫假设建立词预测模型,例如根据最近的上下文预测下一个词。·神经语言模型(NLM):引入了词的分布式表示这一概念,并在聚合上下文特征(即分布式词向量)的条件下构建词预测函数。开创了将语言模型用于表示学习(超越词序列建模)的应用·预训练语言模型(PLM):基于自注意力机制的高度并行化Transformer架构。确原创 2024-03-22 13:05:17 · 241 阅读 · 0 评论 -
【转载】基于LLaMA Factory,单卡3小时训练专属大模型 Agent
LLaMA Factory 在今后还将不断升级,欢迎大家关注我们的 GitHub 项目。同时,我们也将本文的模型上传到了 Hugging Face,如果您有资源,一定要亲自动手训练一个大模型 Agent!转载 2024-03-18 21:11:30 · 165 阅读 · 0 评论 -
【转载】【ChatGLM3】(7):在autodl上,使用A50显卡,使用LLaMa-Factory开源项目对ChatGLM3进行训练,非常方便的,也方便可以使用多个数据集
工具还是非常的简单,可以把机构参数进行设置下。主要就是把参数可视化,同时把结果也可视化。非常的方便。进度也可以看到。转载 2024-03-18 20:27:00 · 281 阅读 · 0 评论 -
【转载】用通俗易懂的方式讲解大模型:使用 Docker 部署大模型的训练环境
Docker 安装与主机安装的方式相比,我们少安装了 CUDA 和 PyTorch 程序,多安装了和下载 Docker 镜像,但整体花费的时间其实是减少了的(因为 CUDA 和 PyToch 安装时间比较长)。Docker 安装最大的好处就是可以随时切换不同的环境,而且不会影响到主机的环境。转载 2024-03-15 23:36:25 · 473 阅读 · 0 评论 -
【转载】用通俗易懂的方式讲解大模型:Llama2 部署讲解及试用方式
Llama2 的发布是一个里程碑式的事件,它是一个免费可商用的大型预训练语言模型,可以接收任何形式的自然语言文本输入,并产生文本形式的输出。Llama2 的发布将会对 AI 产生深远的影响,它将会成为 AI 产业的一个重要组成部分,也将会成为 AI 产业的一个重要基础设施。希望今天的文章能够帮助到大家部署自己的 Llama2,如果在部署的过程中遇到问题,欢迎在评论区留言。关注我,一起学习各种人工智能和 AIGC 新技术,欢迎交流,如果你有什么想问想说的,欢迎在评论区留言。转载 2024-03-15 23:22:02 · 227 阅读 · 0 评论 -
【转载】用通俗易懂的方式讲解大模型:代码大模型盘点及优劣分析
GitHub Copilot 是由 OpenAI 和 GitHub 共同开发的,它使用了一个大型的语言模型(Codex),这个模型是在大量的公开源代码上进行训练的。Copilot 可以理解自然语言和代码,因此它可以根据开发者的描述来生成代码,也可以根据已有的代码来生成新的代码。这使得 Copilot 不仅可以帮助开发者快速编写代码,还可以帮助他们学习新的编程语言和技术。转载 2024-03-15 23:11:14 · 398 阅读 · 0 评论 -
【转载】用通俗易懂的方式讲解大模型:Prompt 提示词在开发中的使用
在本文中,我们深入探讨了 Prompt 提示词在开发中的使用。通过对信息提取的讨论,我们了解到 Prompt 可以有效地提取用户提供的有用信息,提高了数据的获取效率。在讨论信息分类时,我们看到了 Prompt 如何判断信息类型,有助于进行精确分类,以及在进一步数据处理中的巨大作用。在信息检查的部分,我们发现 Prompt 能够在早期阶段辅助识别并处理信息中的问题,这在避免错误、优化系统性能方面都起到了关键作用。转载 2024-03-15 22:54:53 · 166 阅读 · 0 评论 -
【转载】用通俗易懂的方式讲解大模型:基于 LangChain 和 ChatGLM2 打造自有知识库问答系统
添加知识库文档步骤如下:先选新建知识库输入知识库名字,点击“添加至知识选项”上传文件,完了后点击“上传文件并加载知识库”然后就可以基于这个知识库进行问答了,操作十分简单。本文介绍了 GPU 服务器的选型,ChatGLM2 和 Langchain-ChatGLM 的部署和使用,如果想要了解更多关于 Langchain-ChatGLM 的实现原理,可以在他们 GitHub 仓库中查看更多的信息。如果你想打造属于自身业务的问答系统,可以参考本文的方法,希望可以帮助到你。转载 2024-03-15 20:43:29 · 101 阅读 · 0 评论 -
【转载】用通俗易懂的方式讲解大模型:基于 Langchain 和 ChatChat 部署本地知识库问答系统
AI 知识库问答系统是一个很有前景的方向,它是对传统知识库系统的一种升级,相信在未来会有很多垂直领域的公司会用到这个技术。从 Langchain Chatchat 项目的发展过程上来看,项目从原来的一个 demo 级别的项目,逐渐向一个完整的产品迈进,在架构、UI 界面、LLM 集成方面也在不断完善,我相信这是一个未来可期的项目。而对于那些还在用老版本的小伙伴,建议尽快升级到新版本,因为项目团队以后的主要精力都会放在新版本的开发上,老版本的功能可能不会再更新了。转载 2024-03-15 20:26:38 · 223 阅读 · 0 评论 -
【转载】用通俗易懂的方式讲解大模型:使用 FastChat 部署 LLM 的体验太爽了
FastChat[2]是一个用于训练、服务和评估基于大型语言模型的聊天机器人的开放平台。其核心功能包括:最先进 LLM 模型的权重、训练代码和评估代码。带有 WebUI 和与 OpenAI 兼容的 RESTful API 的分布式多模型服务系统。其实 FastChat 的功能非常强大,今天介绍的部署功能只是冰山一角,如果你对 FastChat 感兴趣的话,可以去官方仓库查看更多的信息。今天的文章就到这里,如果在部署的过程中遇到问题,欢迎在评论区讨论。转载 2024-03-15 20:13:39 · 354 阅读 · 0 评论 -
【转载】用通俗易懂的方式讲解大模型:一个强大的 LLM 微调工具 LLaMA Factory
LLM 微调,也叫做 Fine-tuning,是深度学习领域中常见的一种技术,用于将预先训练好的模型适配到特定的任务或数据集上。这个过程包括几个主要步骤:基础模型选择:选择一个通用文本数据的基础语言模型,使其能够理解基本的语言结构和语义。准备训练数据集:选择一个与目标任务相关的较小数据集。微调:在此数据集上训练模型,但通常使用较低的学习率,以保留基础模型学到的知识,同时学习目标任务的特定知识。评估:在目标任务的验证集上评估模型的性能,需要准备评估数据集。转载 2024-03-15 19:53:17 · 92 阅读 · 0 评论 -
【转载】Copilot 取消自动付费
转载链接:https://blog.csdn.net/m0_71622680/article/details/135407205。转载 2024-03-15 09:53:11 · 433 阅读 · 0 评论 -
【随笔乱写】nvidia container runtime 安装
转载链接:https://blog.csdn.net/qq_35887587/article/details/122988752。转载 2024-03-14 12:21:38 · 280 阅读 · 0 评论 -
【随笔乱写】Docker 容器满了 - 方法一 清理
转载链接:https://blog.csdn.net/qq_40432886/article/details/132323036。转载 2024-03-14 12:10:35 · 78 阅读 · 0 评论 -
【转载】用通俗易懂的方式讲解大模型:一个强大的 LLM 微调工具 LLaMA Factory
LLM 微调,也叫做 Fine-tuning,是深度学习领域中常见的一种技术,用于将预先训练好的模型适配到特定的任务或数据集上。这个过程包括几个主要步骤:基础模型选择:选择一个通用文本数据的基础语言模型,使其能够理解基本的语言结构和语义。准备训练数据集:选择一个与目标任务相关的较小数据集。微调:在此数据集上训练模型,但通常使用较低的学习率,以保留基础模型学到的知识,同时学习目标任务的特定知识。评估:在目标任务的验证集上评估模型的性能,需要准备评估数据集。转载 2024-03-13 12:20:44 · 226 阅读 · 0 评论 -
【转载】大模型高效微调框架LLaMA-Factory技术原理解析 | SciSci AI Workshop
转载链接:https://www.bilibili.com/video/BV1tQ4y1j7KF/?大模型高效微调框架LLaMA-Factory技术原理解析 - 郑耀威先生。转载 2024-03-13 12:05:53 · 1118 阅读 · 0 评论 -
【随笔乱写】杂记
向量数据库实现思路:先将特有数据转换为embedding存入向量数据库,在调用模型生成问答时,先将query转换成embedding,然后从数据库查询相近的结果作为上下文。搜索引擎实现思路:在调用大模型生成问答时,先用搜索引擎搜索相关的词条,将词条内容或者摘要作为上下文输入到模型。模型使用chatglm-6b 4bit,推理使用hugging face,前端应用使用streamlit或者gradio。过拟合&欠拟合、泛化性、正则化、分层控制、分类图集 finetune。1、pretrain :基础大模型。原创 2024-03-13 09:13:41 · 358 阅读 · 0 评论 -
【转载】大神Andrej Karpathy亲授:大语言模型入门
转载链接:https://mp.weixin.qq.com/s/fmb4nvIEA9AC-5JpNPWN7QB站:https://b23.tv/BLAPMNf前言OpenAI大家熟知的技术大神有两位,一位是首席科学家Ilya,很多人这几天可能因为OpenAI董事会风波而反复听过这个名字;另外一位则是温文儒雅的Andrej Karpathy。如果说Ilya的标签是ChatGPT之父,神级大牛;那么Andrej Karpathy的额外标签则是当之无愧这世界上最优秀的AI导师之一。本号在之前分享过他在微软Bui转载 2024-03-12 18:46:41 · 106 阅读 · 0 评论 -
【转载】大模型ChatGLM-6B安装Mac M1本地部署
(MacOS) 的话请参考这个Issue. https://github.com/THUDM/ChatGLM-6B/issues/6#issuecomment-1471303336。如果网络慢,自己手动到国内网站下载 https://cloud.tsinghua.edu.cn/d/fb9f16d6dc8f482596c2/下载模型 https://huggingface.co/THUDM/chatglm-6b/tree/main。模型路径=THUDM/chatglm-6b。转载 2024-03-11 23:22:49 · 194 阅读 · 0 评论 -
【转载】本地搭建属于自己的ChatGPT:基于PyTorch+ChatGLM-6b+Streamlit+QDrant+DuckDuckGo
转载链接:https://blog.csdn.net/weixin_39653948/article/details/130178352本地部署chatglm及缓解时效性问题的思路:模型使用chatglm-6b 4bit,推理使用hugging face,前端应用使用streamlit或者gradio。微调对显存要求较高,还没试验。可以结合LoRA进行微调。缓解时效性问题:通过本地数据库或者搜索引擎获取特有数据或者实时数据作为生成模型的上下文。windows 1132G 内存GTX 3080Ti安装anac转载 2024-03-11 23:16:45 · 207 阅读 · 0 评论 -
【转载】【手把手AI项目】一、安装win10+linux-Ubuntu16.04的双系统(超细致)_windows10 运行linux 学习ai-CSDN博客
转载链接:https://chehongshu.blog.csdn.net/article/details/8467431最近做深度学习项目,用的caffe框架,自己电脑本身是win10,平时用linux都在虚拟机,感觉不舒服,并且caffegpu在win下安装真的费劲,必须得用VS2013才可以编译,2015亲测不行,果断装一个linux算了,直接装上双系统开干,当然早就结束了这个项目,最近买个新电脑,准备重新走一遍这个过程,以后自己用也方便,也方便大家。转载 2024-03-11 19:07:45 · 307 阅读 · 1 评论 -
【转载】揭秘Ubuntu深度学习服务器配置:新手如何成为专家?
本篇博客主要记录Ubuntu深度学习服务器从裸机到配置结束的全过程。转载 2024-03-11 18:18:23 · 165 阅读 · 0 评论