大模型
文章平均质量分 54
luoganttcc
微信:luogantt
展开
-
bert 文本分类
https://github.com/mzc421/Pytorch-NLP/tree/master/02-Bert%20%E6%96%87%E6%9C%AC%E5%88%86%E7%B1%BB原创 2023-10-17 16:21:22 · 77 阅读 · 0 评论 -
声音风格迁移
link原创 2023-10-16 18:26:58 · 72 阅读 · 0 评论 -
推荐一个语音识别模块
ASRT_SpeechRecognitionPublic原创 2023-10-16 11:54:05 · 126 阅读 · 0 评论 -
Ubuntu pyaudio安装报错:ERROR: Could not build wheels for pyaudio, which is required to install pyproject
【代码】Ubuntu pyaudio安装报错:ERROR: Could not build wheels for pyaudio, which is required to install pyproject。原创 2023-10-12 20:51:39 · 168 阅读 · 0 评论 -
transformer学习之多头注意力机制
多头注意力原创 2023-10-12 11:27:45 · 87 阅读 · 0 评论 -
如何在 Keras 中开发用于序列到序列预测的编码器-解码器模型
【代码】如何在 Keras 中开发用于序列到序列预测的编码器-解码器模型。原创 2023-10-11 19:03:55 · 161 阅读 · 0 评论 -
如何在 Keras 中开发具有注意力的编码器-解码器模型
本教程分为6个部分;他们是:带注意力的编码器-解码器注意力测试无需注意的编码器-解码器自定义 Keras 注意力层带注意力的编码器-解码器模型比较现在我们需要关注编码器-解码器模型。在撰写本文时,Keras 还没有内置于库中的注意力功能,但即将推出。在 Keras 中正式提供注意力之前,我们可以开发自己的实现或使用现有的第三方实现。为了加快速度,让我们使用现有的第三方实现。原创 2023-10-11 17:13:20 · 183 阅读 · 0 评论 -
大模型分布式训练并行技术(四)-张量并行
近年来,随着Transformer、MOE架构的提出,使得深度学习模型轻松突破上万亿规模参数,传统的单机单卡模式已经无法满足超大模型进行训练的要求。因此,我们需要基于单机多卡、甚至是多机多卡进行分布式大模型的训练。而利用AI集群,使深度学习算法更好地从大量数据中高效地训练出性能优良的大模型是分布式机器学习的首要目标。为了实现该目标,一般需要根据硬件资源与数据/模型规模的匹配情况,考虑对计算任务、训练数据和模型进行划分,从而进行分布式存储和分布式训练。原创 2023-10-11 14:42:27 · 358 阅读 · 0 评论 -
大杀器,多模态大模型MiniGPT-4入坑指南
ChatGPT的发布给大家带来了不少的震撼,而随后发布的GPT-4更是展现了非凡的多模态能力。但是,ChatGPT和GPT4官方公布的细节很少,OpenAI俨然走上了闭源之路,让广大AI从业者又爱又恨。最近,来自沙特阿拉伯阿卜杜拉国王科技大学的研究团队开源了GPT-4的平民版 MiniGPT-4。他们认为,GPT-4 具有先进的多模态生成能力的主要原因在于利用了更先进的大型语言模型(LLM)。为了研究这一现象,他们提出了 MiniGPT-4。MiniGPT-4 简介。原创 2023-10-09 14:58:22 · 635 阅读 · 0 评论 -
大模型分布式训练并行技术(一)-概述
上面提到的数据并行、张量并行、流水线并行等多维混合并行需要把模型切分到多张AI加速卡上面,如果让用户手动实现,对开发者来说难度非常大,需要考虑性能、内存、通信、训练效果等问题,要是能够将模型按算子或者按层自动切分到不同的加速卡上,可以大大的降低开发者的使用难度。通常来讲,模型规模的扩展会导致训练成本显著增加,计算资源的限制成为了大规模密集模型训练的瓶颈。通常来说,模型训练的过程中,GPU上需要进行存储的参数包括了模型本身的参数、优化器状态、激活函数的输出值、梯度以及一些零时的Buffer。转载 2023-10-09 14:54:31 · 125 阅读 · 0 评论 -
大模型算法演进
2018年谷歌发布了BERT,便一举击败 11 个 NLP 任务的 State-of-the-art (Sota)结果,成为了 NLP 界新的里程碑,同时为模型训练和NLP领域打开了新的思路,预训练模型逐渐成为自然语言处理(NLP)领域的主流;2021年12月,谷歌推出了具有万亿权重的通用语言模型 (Generalist Language Model,GLaM),该模型的一大特点就是具有稀疏性,可以高效地进行训练和服务(在计算和资源使用方面),在多个小样本学习任务上取得有竞争力的性能。转载 2023-10-09 12:47:29 · 85 阅读 · 0 评论 -
大模型实践总结
目前,主流的AI处理器无疑是NVIDIA的GPU,NVIDIA的GPU产品主要有GeForce、Tesla和Quadro三大系列,虽然,从硬件角度来看,它们都采用同样的架构设计,也都支持用作通用计算(GPGPU),但因为它们分别面向的目标市场以及产品定位的不同,这三个系列的GPU在软硬件的设计和支持上都存在许多差异。另外,我创建了大模型学习交流群,供大家一起学习交流大模型相关的最新技术,目前已有5个群,可加我微信进群(加微信请备注来意,如:进大模型学习交流群+知乎)。一定要备注哟,否则不予通过。转载 2023-10-09 12:42:54 · 545 阅读 · 0 评论 -
从0到1基于ChatGLM-6B使用LoRA进行参数高效微调
关注他等 189 人赞同了该文章目录收起ChatGLM-6B简介具备的一些能力局限性LoRA 技术原理环境搭建数据集准备数据预处理参数高效微调单卡模式模型训练数据并行模式模型训练模型推理结语之前尝试了基于LLaMA使用LoRA进行参数高效微调,有被惊艳到。相对于full finetuning,使用LaRA显著提升了训练的速度。虽然 LLaMA 在英文上具有强大的零样本学习和迁移能力,但是由于在预训练阶段 LLaMA 几乎没有见过中文语料。原创 2023-10-08 22:41:04 · 869 阅读 · 0 评论 -
使用DeepSpeed/P-Tuning v2对ChatGLM-6B进行微调
之前尝试了基于ChatGLM-6B使用LoRA进行参数高效微调。ChatGLM-6B简介ChatGLM-6B相关的简介请查看之前的文章,这里不再赘述。P-Tuning v2简介P-Tuning是一种较新的模型微调方法,它采用了参数剪枝的技术,可以将微调的参数量减少到原来的0.1%。具体来说,P-Tuning v2是基于P-Tuning v1的升级版,主要的改进在于采用了更加高效的剪枝方法,可以进一步减少模型微调的参数量。原创 2023-10-08 22:36:13 · 699 阅读 · 0 评论 -
大模型也内卷,Vicuna训练及推理指南,效果碾压斯坦福羊驼
2023开年以来,大模型进入疯狂内卷状态,大模型的发布都要以“天”为单位进行迭代。之前,尝试了从0到1复现斯坦福羊驼(Stanford Alpaca 7B),下面我们来尝试从0到1复现Vicuna训练及推理。Vicuna简介继斯坦福羊驼(Stanford Alpaca)之后,UC伯克利、CMU、斯坦福等机构的学者,联手发布了最新开源大模型骆马(Vicuna),包含7B和13B参数。Vicuna工作流程Vicuna具体的工作流程如下图所示,首先,研究人员从http://转载 2023-10-08 22:30:58 · 141 阅读 · 0 评论 -
大模型实战
12原创 2023-10-08 22:18:22 · 48 阅读 · 0 评论 -
LLMs 入门实战系列
【LLMs 入门实战系列】交流群 (注:人满 可 添加 小编wx:yzyykm666 加群!扫码加小编,申请加入学习群。原创 2023-10-08 16:13:13 · 168 阅读 · 0 评论 -
RuntimeError: CUDA unknown error #49081
【代码】RuntimeError: CUDA unknown error #49081。原创 2023-10-07 17:45:06 · 115 阅读 · 0 评论 -
gpt 实战部署 BELLE
【代码】gpt 实战部署 BELLE。原创 2023-10-04 21:09:16 · 103 阅读 · 0 评论 -
分享9个已开源的GPT4平替,用过感觉还不错
作为ChatGPT的平替,开源了完整的RLHF流水线,包括,监督数据收集、监督微调、奖励模型训练和强化学习微调等。对于想要研究大模型的同学来说,目前ChatGPT无疑是最好的学习对象,但等它开源估计是不太可能了,所以学姐今天整理了一些开源的类GPT模型,帮助大家更好的理解大模型背后的机理。整理了一部分大模型的论文,PDF格式的,关注“学姐带你玩AI”(不懂的看我主页签名)后台回复“大模型”直接领取。智谱AI研发,基于千亿参数大模型的支持中英双语的对话机器人。高效、简单、可扩展,功能多,包含AIGC。原创 2023-10-04 15:56:00 · 378 阅读 · 0 评论 -
深入浅出完整解析Stable Diffusion XL(SDXL)核心基础知识
【代码】深入浅出完整解析Stable Diffusion XL(SDXL)核心基础知识。原创 2023-10-02 17:29:02 · 107 阅读 · 0 评论