AI拉呱
只传播科技前沿知识,就做不一样!
展开
-
安全大模型以及训练数据集
安全大模型和数据集原创 2024-05-21 16:24:42 · 131 阅读 · 0 评论 -
关于大语言模型的论文和学习资源集合
【代码】关于大语言模型的论文和学习资源集合。原创 2024-05-14 14:40:29 · 186 阅读 · 0 评论 -
chatGLM或chatgpt:什么是tokens以及如何计算tokens长度?
简单的来说tokens就是大语言模型输入的向量数据,它是从原始的文本转化而来。比如输入:here is a text demotokens为:[64790, 64792, 985, 323, 260, 2254, 16948]解码:将tokens转化为文本。原创 2024-05-11 14:46:07 · 607 阅读 · 0 评论 -
Google Gemma 2B 微调实战(IT科技新闻标题生成)
如果你不想训练,但又希望尝试本文中的模型,你可以在 huggingface 上搜索 gemma-2b-technology-news-title-generation-lora[9],找到从100-2200 steps 的所有 checkpoint。本文使用了一种相对简单的方式来训练符合自己需求的模型。在真实的企业场景中往往还涉及如何生成符合需求的数据集,集群训练,模型的AB测试,企业级部署等问题。我会在未来的文章中和大家分享。原创 2024-05-08 23:10:09 · 524 阅读 · 0 评论 -
[算法前沿]--022-使用 StarCoder 创建一个编程助手
BigCode 开发的 StarCoder,这是一个在一万亿的 token、80 多种编程语言上训练过的 16B 参数量的模型。训练数据多来自 GitHub 上的 issues、使用 Git 提交的代码、Jupyter Notebook 等等。得益于对企业友好的许可证、长度为 8192 的 token、借助 multi-query attention 的快速大批量推理,StarCoder 可以说是当前对代码相关的应用最合适的开源选择。原创 2024-04-07 22:56:38 · 195 阅读 · 0 评论 -
大语言模型微调经验
前言由于 ChatGPT 和 GPT4 兴起,如何让人人都用上这种大模型,是目前 AI 领域最活跃的事情。当下开源的 LLM(Large language model)非常多,可谓是百模大战。面对诸多开源本地模型,根据自己的需求,选择适合自己的基座模型和参数量很重要。选择完后需要对训练数据进行预处理,往往这一步就难住很多同学,无从下手,更别说 training。然后再对模型进行 finetuning 来更好满足自己的下游任务。那么对于如果要训练一个专家模型。预训练也是必不可缺的工作。原创 2024-02-22 13:36:57 · 70 阅读 · 0 评论 -
[算法前沿]--058- LangChain 构建 LLM 应用详细教程
LLM,即大型语言模型,是指经过大量文本数据训练的最先进的语言模型。它利用深度学习技术来理解和生成类似人类的文本,使其成为各种应用程序的强大工具,例如文本完成、语言翻译、情感分析等。LLMs最著名的例子之一是 OpenAI 的 GPT-3,它因其语言生成能力而受到广泛关注和赞誉。欢迎来到 LangChain,这是一个开拓性的平台,打开了通往语言模型 (LLM) 迷人领域的大门。通过 LangChain,你可以将LLMs无缝集成到你的项目中,利用其非凡的能力。原创 2024-02-08 17:00:00 · 138 阅读 · 0 评论 -
[算法前沿]--059-大语言模型Fine-tuning踩坑经验之谈
但这里 Lora 的配置其实是要注意一下,如果你是用 Lora 做预训练,lora 训练模块可以配上 q_proj,v_proj,k_proj,o_proj 如果是微调则只需要训练 q_proj,v_proj lora_rank 的设置也有讲究,初始设 lora_ran 为 8,训练存在遗忘时,可以将 lora_rank 改为 64(原因是与原模型数据领域相差较大的话,需要更大的秩,原论文有说明)。对于推理,在 GPU 资源不富裕的情况,如何最小化的利用内存,提升推理效率,也是可以讨论的内容。原创 2024-02-08 11:36:23 · 803 阅读 · 0 评论 -
大语言模型微调数据集(2)
CCF-BDCI2021-面向黑灰产治理的恶意短信变体字还原--------------- https://share.weiyun.com/xHr6OkQw。SMP2020微博情绪分类技术评测--------------- https://share.weiyun.com/uFGEhrWp。SMP2019中文隐式情感分析评测--------------- https://share.weiyun.com/MgHL8QSI。ERNIE1.0提供了5个中文数据集,并在这些数据集上测试ERNIE的效果。原创 2024-02-06 17:48:53 · 1006 阅读 · 0 评论 -
大语言模型的技术-算法原理
带宽beta即模型的计算性能,单位为FLOP/s。令I_max=计算平台算力/计算平台带宽,当模型的计算强度I小于平台的理论计算强度I_max,模型的计算能力P即I。原创 2024-01-26 10:48:18 · 408 阅读 · 0 评论 -
大语言模型推理优化策略
带宽beta即模型的计算性能,单位为FLOP/s。令I_max=计算平台算力/计算平台带宽,当模型的计算强度I小于平台的理论计算强度I_max,模型的计算能力P即I。原创 2024-01-26 10:32:03 · 795 阅读 · 0 评论 -
大语言应用技术原理
大模型应用技术原理RAG向量数据库 对比选型标准开源vs.闭源vs. 源码可见客户端/SDK语言托管方式self-hosted/on-premiseredis,pgvector,milvusmanaged/cloud-nativezilliz,pineconeembeded+cloud-nativechroma,lanceDBself-hosted+cloud-nativevald,drant,weaviate,vspa,elasticsearch原创 2024-01-26 10:29:17 · 141 阅读 · 0 评论 -
大模型指令对齐训练原理
RLAIFRRHFSFT-onlyReward-only参考文献。原创 2024-01-26 10:26:35 · 149 阅读 · 0 评论 -
大语言模型分布式训练技术原理
MLP切分self-attention切分输入层Embedding切分输出层Embedding切分。原创 2024-01-26 10:09:10 · 411 阅读 · 0 评论 -
[算法前沿]--054-大语言模型的学习材料
大语言模型的学习材料原创 2023-11-01 21:00:28 · 1033 阅读 · 2 评论 -
大语言模型的学习路线和开源模型的学习材料《一》
【LLMs 入门实战】 ChatGLM3 模型学习与实战【LLMs 入门实战】 ChatGLM3 模型微调学习与实战【ChatGLM2-6B入门】清华大学开源中文版ChatGLM-6B模型学习与实战【关于 ChatGLM2 + LoRA 进行finetune 】那些你不知道的事【LLMs 入门实战 】基于 🤗PEFT 的高效 🤖ChatGLM2-6B 微调【LLMs 入门实战】基于 🤗QLoRA 的高效 🤖ChatGLM2-6B 微调【LLMs 入门实战】 QLoRA微调Llama2 模型学习与实战原创 2023-11-01 20:50:23 · 703 阅读 · 0 评论 -
大语言模型的学习路线和开源模型的学习材料《二》
【LLMs 入门实战】 Retrieval-based-Voice-Conversion-WebUI 模型学习与实战【LLMs 入门实战】 kNN-VC 模型学习与实战【LLMs 入门实战 —— 二十九 】HuatuoGPT (华佗GPT) 学习与实战【LLMs 入门实战 】DoctorGLM 学习与实战【LLMs 入门实战 】 BenTsao 学习与实战【LLMs 入门实战 】 BianQue 学习与实战【LLMs 入门实战 】 Med-ChatGLM 学习与实战【LLMs 入门实战 】 QiZhenGP原创 2023-11-01 20:44:29 · 758 阅读 · 0 评论 -
chatGLM2-6B模型LoRA微调数据集实现大模型的分类任务
ChatGLM 模型是由清华大学开源的、支持中英双语问答的对话语言模型,并针对中文进行了优化。该模型基于 General Language Model(GLM)架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署。ChatGLM 具备以下特点:充分的中英双语预训练:ChatGLM 在 1:1 比例的中英语料上训练了 1T 的 token 量,兼具双语能力。优化的模型架构和大小:修正了二维 RoPE 位置编码实现。原创 2023-10-13 23:08:01 · 1661 阅读 · 0 评论 -
Transformer的fine tune的微调大模型教程demo
【代码】Transformer的fine tune的微调大模型教程demo。原创 2023-09-15 17:25:02 · 204 阅读 · 0 评论 -
LLM大模型训练和预测如何计算算力需求?
2. Transformer可以取代CNN,也就是使用Transformer可以做视觉。优化器参数 Adam 2倍模型参数:6GB*2 = 12GB。一个LLaMA-6B的数据类型为Int8。模型参数 6B*1bytes = 6GB。训练共24GB的显存。原创 2023-09-14 16:58:55 · 2344 阅读 · 0 评论 -
基于chatGLM的项目集合
对 ChatGLM 进行加速或者重新实现的开源项目:基于或使用了 ChatGLM-6B 的开源项目:对 ChatGLM-6B 进行微调的开源项目:针对 ChatGLM-6B 的教程/文档:原创 2023-07-11 18:57:38 · 448 阅读 · 0 评论 -
[算法前沿]--046-大模型量化的基本原理
模型量化即以较低的推理精度损失将连续取值的浮点型模型权重进行裁剪和取舍,它是以更少位数的数据类型用于近似表示32位有限范围浮点型数据的过程,而模型的输入输出依然是浮点型,从而达到减少模型尺寸大小、减少模型内存消耗及加快模型推理速度等目标。比如int8量化,就是让原来32bit存储的数字映射到8bit存储。int8范围是[-128,127], uint8范围是[0,255]。原创 2023-07-06 11:30:09 · 541 阅读 · 0 评论 -
[算法前沿]--033-Transformers的生成任务-语言模型
如果您是在本地机器上打开这个jupyter笔记本,请确保您的环境安装了上述库的最新版本。您可以在找到这个jupyter笔记本的具体的python脚本文件,还可以通过分布式的方式使用多个gpu或tpu来微调您的模型。原创 2023-06-30 00:15:00 · 157 阅读 · 0 评论 -
[算法前沿]--032-Transformers的生成任务-机器翻译
如果您正在本地打开这个notebook,请确保您认真阅读并安装了transformer-quick-start-zh的readme文件中的所有依赖库。您也可以在找到本notebook的多GPU分布式训练版本。原创 2023-06-29 23:30:00 · 221 阅读 · 1 评论 -
[算法前沿]--031-Transformers的抽取式问答
以上的代码都只考虑了context里面的asnwers,所以我们同样需要将无答案的预测得分进行搜集(无答案的预测对应的CLSt oken的start和end)。机器问答模型将使用答案的位置(答案的起始位置和结束位置,start和end)作为训练标签(而不是答案的token IDS)。由于我们微调的任务是机器问答任务,而我们加载的是预训练的语言模型,那么上面会提示我们加载模型的时候扔掉了一些不匹配的神经网络参数(预训练语言模型的神经网络head被扔掉了,同时随机初始化了机器问答的神经网络head)。原创 2023-06-28 16:44:40 · 432 阅读 · 0 评论 -
[算法前沿]--030-Transformers的序列标注
序列标注(token级的分类问题)如果您正在本地打开这个notebook,请确保您已经进行上述依赖包的安装。您也可以在找到本notebook的多GPU分布式训练版本。本小节所涉及的模型结构与上一篇章中的BERT基本一致,额外需要学习的是特定任务的数据处理方法和模型训练方法。序列标注(token级的分类问题)序列标注,通常也可以看作是token级别的分类问题:对每一个token进行分类。在这个notebook中,我们将展示如何使用中的transformer模型去做token级别的分类问题。原创 2023-06-28 16:35:04 · 346 阅读 · 0 评论 -
[算法前沿]--029-Transformers的生成任务-摘要生成
分布式训练请查看微调transformer模型解决摘要生成任务在本notebook中,我们将展示如何微调中的预训练模型来解决摘要生成任务。我们使用数据集。这个数据集包含了BBC的文章和一句对应的摘要。原创 2023-06-28 16:34:18 · 488 阅读 · 0 评论 -
[算法前沿]--028-基于Hugging Face -Transformers的预训练模型微调
本章节将使用Hugging Face 生态系统中的库——🤗 Transformers来进行自然语言处理工作(NLP)。原创 2023-06-28 11:49:28 · 340 阅读 · 0 评论 -
[算法前沿]--027-如何应用一个BERT?
接着上一小节,我们对Huggingface开源代码库中的Bert模型进行了深入学习,这一节我们对如何应用BERT进行详细的讲解。涉及到的jupyter可以在代码库:篇章3-编写一个Transformer模型:BERT,下载BERT-based Models应用模型BERT训练和优化Bert解决NLP任务BERT训练与优化AdamWWarmup。原创 2023-06-28 11:47:35 · 931 阅读 · 0 评论 -
[算法前沿]--026-如何实现一个BERT
本文包含大量源码和讲解,通过段落和横线分割了各个模块,同时网站配备了侧边栏,帮助大家在各个小节中快速跳转,希望大家阅读完能对BERT有深刻的了解。同时建议通过pycharm、vscode等工具对bert源码进行单步调试,调试到对应的模块再对比看本章节的讲解。涉及到的jupyter可以在代码库:篇章3-编写一个Transformer模型:BERT,下载本篇章将基于H进行学习。本章节的全部代码在huggingface bert,注意由于版本更新较快,可能存在差别,请以4.4.2版本为准。原创 2023-06-28 11:44:01 · 858 阅读 · 0 评论 -
[算法前沿]--025-图解GPT以及原理介绍
自编码(auto-encoder)语言模型自回归(auto-regressive)语言模型先看自编码语言模型。自编码语言模型典型代表就是BERT。如下图所示,自编码语言模型通过随机Mask输入的部分单词,然后预训练的目标是预测被Mask的单词,不仅可以融入上文信息,还可以自然的融入下文信息。图: BERT mask优点:自然地融入双向语言模型,同时看到被预测单词的上文和下文缺点:训练和预测不一致。原创 2023-06-27 17:11:41 · 877 阅读 · 0 评论 -
[算法前沿]--024-图解BERT以及原理介绍
通过Word2Vec,我们可以使用一个向量(一组数字)来恰当地表示单词,并捕捉单词的语义以及单词和单词之间的关系(例如,判断单词是否相似或者相反,或者像 “Stockholm” 和 “Sweden” 这样的一对词,与 “Cairo” 和 "Egypt"这一对词,是否有同样的关系)以及句法、语法关系(例如,“had” 和 “has” 之间的关系与 “was” 和 “is” 之间的关系相同)。以往的NLP预训练通常是基于语言模型进行的,比如给定语言模型的前3个词,让模型预测第4个词。原创 2023-06-27 17:10:16 · 1108 阅读 · 0 评论 -
[算法前沿]--023-图解transformer原理以及源码解析
知晓了attention为循环神经网络带来的优点。那么有没有一种神经网络结构直接基于attention构造,并且不再依赖RNN、LSTM或者CNN网络结构了呢?答案便是:Transformer。因此,我们将在本小节对Transformer所涉及的细节进行深入探讨。原创 2023-06-27 09:29:49 · 926 阅读 · 0 评论 -
[算法前沿]--022-Pytorch从0编写Transformer算法
到目前为止,我们逐行实现了一个完整的Transformer,并使用合成的数据对其进行了训练和预测,希望这个教程能对你有帮助。原创 2023-06-26 14:30:40 · 852 阅读 · 0 评论 -
[算法前沿]--021-baichuan-7B的测试教程
baichuan-7B此次开源的内容十分丰富,包含了推理代码、INT4量化实现、微调代码,以及预训练模型的权重。微调代码方便用户对模型进行调整和优化;推理代码与INT4量化实现则有助于开发者低成本地进行模型的部署和应用;预训练模型权重开源后,用户则可以直接使用预训练模型进行各种实验研究。训练语料对大模型的训练结果至关重要。在构建预训练语料库方面,百川智能以高质量中文语料为基础,同时融合了优质的英文数据。具体来说,原始数据包括自行抓取的海量中英文互联网数据和部分开源的中英文数据,以及大量高质量知识性数据。原创 2023-06-25 09:59:35 · 340 阅读 · 0 评论 -
[算法前沿]--020-把文档转化为可语义搜索的向量
进入这个项目时,我已经认为自己是我们公司开源 Python 库 FiftyOne 的高级用户。我撰写了许多文档,并且每天都在使用(并继续使用)该库。但是将我们的文档转化为可搜索的数据库的过程迫使我更深入地了解我们的文档。这总是令人欣喜的,当你为他人构建东西,并且最终也能帮助到自己!Sphinx RST 很繁琐:它可以生成漂亮的文档,但解析起来有点麻烦。不要过度预处理:OpenAI 的 text-embeddings-ada-002 模型非常擅长理解文本字符串的含义,即使它们具有稍微不典型的格式。原创 2023-06-19 10:54:25 · 311 阅读 · 0 评论 -
[算法前沿]--019-医学AIGC大模型的构建
我们认为,未来,结合对话数据与院外多生理数据的大模型将有望进一步提升在生活空间的主动健康服务能力,这其中又可以分为:生理健康和心理健康。为了提升大模型的主动健康服务能力,现阶段我们基于现有的医疗对话数据以及自主积累的健康对话数据,经过多轮数据清洗与数据挖掘,构建了千万级别的健康对话大数据、百万级别的心理健康对话大数据,并且通过全参数指令微调构建了初步具备多轮问询与健康建议能力的中文领域生活空间健康大模型扁鹊 (BianQue),以及初步具备共情倾听能力的中文领域心理健康大模型灵心 (SoulChat)。原创 2023-06-19 10:42:22 · 440 阅读 · 0 评论 -
[算法前沿]--018-中文大模型ChatGLM微调:P-Tuning,deepspeed,LoRA<下>
你也可以直接运行支持加载 P-Tuning v2 checkpoint 的。改为 JSON 文件中输入文本和输出文本对应的 KEY。改成本地的模型路径(注意不是checkpoint路径)。的内容以符合你实际的 checkpoint 情况。),将自动把聊天历史拼接。为你自己的 JSON 格式数据集路径,并将。来匹配你自己的数据集中的最大输入输出长度。为数据中聊天历史的 key(在此例子中是。改成你训练时的实际值。原创 2023-05-26 10:00:17 · 1082 阅读 · 0 评论 -
[算法前沿]--017-中文大模型ChatGLM微调:P-Tuning,deepspeed,LoRA<中>
ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。原创 2023-05-26 09:59:01 · 875 阅读 · 0 评论 -
[算法前沿]--016-使用 StarCoder 创建一个编程助手
BigCode 开发的 StarCoder,这是一个在一万亿的 token、80 多种编程语言上训练过的 16B 参数量的模型。训练数据多来自 GitHub 上的 issues、使用 Git 提交的代码、Jupyter Notebook 等等。得益于对企业友好的许可证、长度为 8192 的 token、借助 multi-query attention 的快速大批量推理,StarCoder 可以说是当前对代码相关的应用最合适的开源选择。原创 2023-05-24 22:52:49 · 352 阅读 · 0 评论