大模型AIGC
文章平均质量分 90
“大模型与AIGC探索之旅“:这个专栏将带领读者深入了解大模型和AIGC技术的最新进展。通过详细的技术解析和实践经验分享,读者将了解到如何应用ChatGPT和stable diffusion等大型模型,以及如何利用AIGC技术为企业和个人创造更智能、高效的解决方案。
小爷毛毛(卓寿杰)
NLP对话问答、大模型、AIGC。
微信视频号:毛毛讲书,欢迎关注进一步交流!
展开
-
《大模型AIGC系列课程》大纲
第1章:初识大语言模型(LLM)第3章:LLM推理与训练。第2章:LLM与智能体。原创 2023-09-05 11:46:30 · 2886 阅读 · 0 评论 -
音频-语言大模型原理
直接偏好优化 (DPO) 是一种优化技术,它帮助模型更好地理解并遵循人类的偏好。对于Qwen2-Audio来说,DPO主要用于优化模型的响应,使其更加符合用户的期望,尤其是在事实准确性与行为一致性方面。这个公式的目标是让模型更倾向于生成好的响应(y_w)而不是较差的响应(y_l)。DPO的目标是让模型生成的响应更接近于人类认为好的响应。为此,我们需要准备一个带有偏好信息的数据集,其中包含了对每组输入的好坏响应标注。在语音理解方面,模型架构主要包括两个连续的模块:语音编码器和适配器。原创 2024-09-08 14:49:38 · 963 阅读 · 0 评论 -
Sora原理详解
这里,OpenAI 将 DALL·E 3 中介绍的标题生成技术用到了视频领域,训练了一个具备高度描述性的视频标题生成模型,使用这个模型为所有的视频训练数据生成了高质量文本标题,再将视频和高质量标题作为视频 - 文本对进行训练。虽然早期的 AI 生成剧本可能会显得比较生硬,但随着技术的发展,现在的 AI 能够生成更加自然流畅、富有创意的剧本。OpenAI 训练了一个降低视觉数据维度的网络,这个网络接受原始视频作为输入,然后进行视频压缩,也就是降低数据维度,最后输出的是在时间和空间上压缩过的表示形式。原创 2024-09-08 14:17:57 · 825 阅读 · 0 评论 -
LLM指令微调实践与分析
模型微调是指通过微调工具,加入企业独有的场景数据,对平台的基础模型进行微调。它可以帮助你快速定制出更符合你业务场景需求的专属大模型。它的优势在于对基础模型进行少量调整,满足特定的需求。相比训练新模型高效且低成本。原创 2024-09-03 16:21:05 · 754 阅读 · 0 评论 -
动手打造互动虚拟人
【代码】动手打造互动虚拟人。原创 2024-09-03 09:09:50 · 685 阅读 · 0 评论 -
LLM微调原理详解
指令微调是指使用自然语言形式的数据对预训练后的大语言模型进行参数微调的过程。指令微调中的数据组织策略非常重要,因为它直接影响到模型最终的能力。指令微调是针对预训练的大语言模型进行的一项训练技术,旨在让模型更好地理解和执行特定的指令。指令数据构建的提升方法主要包括指令格式设计、扩展指令数量以及指令重写与筛选这三个方面。LoRA在大语言模型的微调中被广泛应用,能够显著降低模型训练成本。【腾讯文档】【第3章】低成本的领域&私域大模型训练方法。【腾讯文档】【第3章】低成本的领域&私域大模型训练方法。原创 2024-09-02 14:58:43 · 389 阅读 · 0 评论 -
LLM与知识图谱
在这个示例中,我们首先随机打乱社区摘要的顺序,然后将它们分割成更小的块,每个块的长度不超过50个字符。Answer Reasoning 是指代理(智能助手)在探索图结构并收集相关信息后,根据笔记本中记录的不同探索路径的信息来推断和回答问题的过程。Initial Node(初始节点)是指从图结构中选择的一个或几个节点,这些节点将成为探索图结构以寻找答案的起点。这种增强方法的基本思想是从知识图谱中检索出与问题相关的子图,并将这些子图的信息提供给大语言模型,从而增强模型的回答能力。原创 2024-09-02 14:10:08 · 778 阅读 · 0 评论 -
AI视频创作应用
该示例展示了文生视频应用,还包括多种其他生成模式,如文本引导的视频编辑,以及基于姿势、深度、边缘输入结合文本提示进行联合条件下的视频生成。只需上传视频并输入描述该视频的文本提示即可。除了使用应用演示来尝试预训练文生视频模型外,你还可以使用 Tune-a-Video 演示来微调现有的文生图模型,使用自己的文本-视频对。夜晚的丛林中,一只猫头鹰(主体)站在枯树枝上(环境描述),猫头鹰的眼睛在月光下闪闪发亮(动作)。比得兔(主体)开小汽车(主体描述),游走在马路上(环境描述),脸上的表情充满开心喜悦(氛围设定)原创 2024-08-21 10:59:26 · 282 阅读 · 0 评论 -
数字虚拟人原理
通过调整基础形状和纹理的系数,可以生成不同的面部形状和纹理。具体地,头部姿态系数(ρ)可以表示为一个6维向量,其中前3维表示旋转参数(r),后3维表示平移参数(t)。通过调整这些头部姿态系数,可以改变生成的头部动画的姿态,使其与音频内容相匹配。通过从音频中学习生成头部姿态系数(ρ),从而实现了根据音频生成真实的3D运动系数。这些生成的头部姿态系数可以用于调整生成的面部动画,以使其更加逼真和自然。在3D面部重建中,β用于表示面部的表情变化。通过调整β的值,可以改变面部的表情,如微笑、皱眉等。原创 2024-08-21 10:46:35 · 223 阅读 · 0 评论 -
LLM的推理详解
在没有长度惩罚的情况下,解码算法倾向于生成较短的序列,因为随着序列的增长,序列的概率(实际上是概率的乘积)会呈指数级减小,导致较长序列的累积概率低于较短序列,即使较长序列的每个词的概率都很高。这一策略的基本思想是,由于大型语言模型通常具有更广泛的知识和更强的生成能力,它们倾向于为重要的词元分配更高的概率。模型蒸馏,或称知识蒸馏,是一种在深度学习领域中广泛应用的技术,其目标是将一个大型、复杂的模型(教师模型)的知识转移到一个较小、较简单的模型(学生模型)中。原创 2024-08-18 15:41:15 · 123 阅读 · 0 评论 -
AI视频创作原理
I2VGen-XL由达摩院研发的高清视频生成基础模型之一,其核心部分包含两个阶段,分别解决语义一致性和清晰度的问题,参数量共计约37亿,模型经过在大规模视频和图像数据混合预训练,并在少量精品数据上微调得到,该数据分布广泛、类别多样化,模型对不同的数据均有良好的泛化性。随着文生视频模型的发展,出现了更多的多模态视频文本数据集,以及更好、更通用的数据集。在这个公式中,E是预训练的编码器,x是给定的视频,ϵ是噪声,c是选定的条件,t是时间步长,zt是噪声破坏的潜在表示。AI视频创作的任务面临着多方面的独特挑战。原创 2024-08-17 17:01:04 · 984 阅读 · 0 评论 -
AI歌手-五月天(声音转换)
训练结果参考:https://huggingface.co/souljoy/so-vits-svc-mayday。使用FaceBook的Demucs,将audio.wav 分成 Vocal + Instrument。安装 Demucs 分割音频。原创 2024-08-17 16:50:16 · 228 阅读 · 0 评论 -
音乐生成模型应用
接下来我们来介绍如何使用预训练的AudioLDM2模型来生成音频,并通过不同的提示(prompt)和反向提示(negative prompt)来影响生成的音频质量。原创 2024-08-14 15:53:55 · 180 阅读 · 0 评论 -
动手研发实时口译系统
使用Whisper模型进行语音翻译(Speech-to-Speech Translation,STST)的过程。接下啦,我们使用Gradio库创建一个STST(Speech-to-Speech Translation)将英文文本转换成英文语音的过程,即文本到语音(Text-to-Speech,TTS)的转换。这里使用了专门针对英文TTS训练的SpeechT5模型。原创 2024-08-14 15:50:35 · 464 阅读 · 0 评论 -
文本生音频 与 音频生音频
受 Stable Diffusion 的启发,AudioLDM 2 是一种文生音频的隐扩散模型 (latent diffusion model,LDM),其可以将文本嵌入映射成连续的音频表征。Voice conversion(VC)是一种将源说话人的语音转换为目标说话人风格的技术,同时保持语言内容不变。损失函数分为CVAE相关的损失和GAN相关的损失。它是声音中最基本的频率成分,决定了声音的音高。编码器提取源音频语音特征,与 F0 同时输入 VITS 替换原本的文本输入达到歌声转换的效果。原创 2024-08-12 10:03:34 · 224 阅读 · 0 评论 -
文本转语音(TTS)与语音到语音翻译(STST)
对于语音到文本的任务,每个输入语音只对应一个正确的输出文本,但是对于文本到语音的任务,输入文本可以映射到多个可能的语音。这也是一种数据和计算效率很高的开发STST系统的方式,因为现有的语音识别和文本到语音系统可以耦合在一起,产生新的STST模型,无需进行任何额外的训练。我们也可以使用三阶段方法,首先使用自动语音识别(ASR)系统将源语音转录成同一语言的文本,然后使用机器翻译将转录的文本翻译成目标语言,最后使用文本到语音生成目标语言的语音。在ASR模型中,解码器的初始输出序列是一个仅包含“起始”标记的序列。原创 2024-08-12 09:51:18 · 137 阅读 · 0 评论 -
动手训练粤语语音识别模型
在最后一步,我们定义了与训练相关的所有参数。在这里,我们将训练步数设置为100。这足够多的步数,可以与预训练的Whisper模型相比看到很大的词错误率(WER)改进。更多参数说明,参阅:https://huggingface.co/docs/transformers/main_classes/trainer#transformers.Seq2SeqTrainingArgumentsoutput_dir="./whisper-tiny-zh-HK", # 模型上传到HF Hub的名称。原创 2024-08-09 17:10:42 · 263 阅读 · 0 评论 -
动手训练音乐风格分类模型
模型将为我们定义的**每个标签返回一个分类概率。原创 2024-08-09 17:06:25 · 102 阅读 · 0 评论 -
基于Transformer的语音识别与音频分类
例如,如果我们的预测序列是 B_R_II_O_N_||S_AWW|||||S_OMEE_TH_ING||_C_L_O_S_E||TO|P_A_N_I_C||_ON||HHI_S||OP_P_O_N_EN_T’SS||_F_AA_C_E||W_H_EN||THE||M_A_NN||||_F_I_N_AL_LL_Y||||_RREE_C_O_GG_NN_II_Z_ED|||HHISS|||_ER_RRR_ORR||||我们知道语音和文本的顺序是相同的(对齐是单调的),但我们不知道文本中的字符如何与音频对齐。原创 2024-08-04 16:56:18 · 369 阅读 · 0 评论 -
基于DreamBooth的“妙鸭相机”——一次不太成功的实践
猜测很可能是模型不太能理解 instance_prompt 中“GQS”的含义。可以看到,虽然训练还不够重复不算是特别像,但是比之前版本是好很多了!可以看到,只有第3张有点像“高启盛”,其他甚至不是一个人!先安装所需要依赖的库和配置。原创 2024-08-02 14:18:27 · 80 阅读 · 0 评论 -
动手训练自己的AI绘画LoRA:宝可梦
train_text_to_image_lora.py 中只支持 CLIPTokenizer ,而不支持 ”IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Anime-Chinese-v0.1“的BertTokenizer。为了确保你可以成功运行最新版本的示例脚本,建议从源代码进行安装,并随着示例脚本的频繁更新和安装一些特定示例的要求,保持安装的最新状态。]模型的其他部分,只训练text encoder,以便保留原始模型的生成能力且实现中文概念的对齐。]数据集(100M)和。原创 2024-08-01 10:55:15 · 610 阅读 · 0 评论 -
AI绘画的WebUI与Prompt使用技巧
假设你已经下载了一个名为 “大概是盲盒” 的 LoRA 模型,并将它放入了 stable-diffusion-webui/models/Lora 文件夹中,那么你就可以在 WebUI 中看到并使用这个模型来生成文本,同时可以通过调整权重来控制生成文本的风格。最后,你可以尝试不同的重绘强度和提示来改变一张可爱的女孩照片的风格,将她变成卡通或迪斯尼风格的图像。,其中模型文件名是你想要使用的 LoRA 模型的名称,权重是一个介于0到1之间的数字,0表示完全不使用 LoRA 模型,1表示完全使用它。原创 2024-08-01 09:46:12 · 110 阅读 · 0 评论 -
AI绘画模型之:低成本定制——Textual Inversion、DreamBooth 与 LoRA
具体来说,由于文本提示同时包含 [identifier](如“小鹏汽车P7”) 和 [class noun](“汽车”),当扩散模型在进行微调时,我们观察到它会慢慢忘记如何生成同一类的主题并逐渐忘记特定于class的先验知识,并且不能生成相关类的不同实例(即 所有的“汽车” 可能都变成了 “小鹏汽车P7”)。Textual Inversion算法的核心思想是,为了表示定制化的内容,我们要学习一个全新的词嵌入向量,并给它一个特殊的符号,比如S*,然后为这个新符号分配一个新的标识号(token_id)。原创 2024-07-31 16:45:36 · 465 阅读 · 0 评论 -
AI绘画模型之:VAE、SD 与 SD-XL
研究人员使用COCO2017数据集的验证集对改进的自编码器进行了评估,并使用了多个重建指标进行评估,包括峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)、结构相似性指数(Structural Similarity Index,SSIM)、感知距离指标(Learned Perceptual Image Patch Similarity,LPIPS)和重建FID(reconstruction FID)。例如,如果原始图像的分辨率是512x512,那么潜在空间的大小可以是64x64。原创 2024-07-31 16:38:08 · 211 阅读 · 0 评论 -
AI绘画模型之:UNet、Imagen 与 DeepFloyd IF
首先,我们要了解一下 Imagen 模型,它是一种人工智能模型,专门用于绘画任务。让我们先看看 Imagen 模型在人工智能绘画方面的表现,以便我们能够更直观地理解它的能力。Imagen 模型有一个很酷的功能,它可以根据指定的文字生成图像,我们可以简称这个功能为“Text-in-Image”(文字嵌入图像)。下面的图片展示了 DALL-E 2 和 Imagen 在这个功能上的对比效果。第一个优势是生成的图像看起来非常逼真,就像真实的照片一样,这个特性叫做“图像真实感”。原创 2024-07-30 14:12:35 · 100 阅读 · 0 评论 -
AI绘画模型之:CLIP 与 DALL-E 2
当我们了解了整个技术方案,可能会有这样的疑惑——因为CLIP的图像和文本表征是通过大量图像和文字的训练得到的,而训练的目标是使匹配的图像和文本表征尽可能接近,那么为什么还需要使用扩散先验模块呢?通过对比图表,你可以看到,用户输入一张图像,使用CLIP的图像编码器提取图像表示作为图像解码器的输入,从而实现了生成图像变体的能力。之前我们提到,扩散先验模型的作用是获得与CLIP图像编码器提取的图像表示类似的表示,而图像变体功能使用CLIP图像编码器提取图像表示,这两者是相似的。原创 2024-07-30 14:03:58 · 205 阅读 · 0 评论 -
视觉-语言大模型应用
可以发现 Qwen-VL-Chat 对图片整体理解还是不错的,但对左侧的方框中的内容是理解有一定出入了。很不幸,VisualGLM 回答出错了,图中的应该是"姆巴佩",而不是"内马尔"。Qwen-VL-Chat 正确的回答了,图中的人物是“梅西和姆巴佩”。我们再来试一下其他的图片。原创 2024-07-29 13:48:59 · 175 阅读 · 0 评论 -
基于ChatGPT的“看图说话”
当你使用 “llama_index” 这个工具来索引文本时,它不仅可以处理纯文字的内容,还可以处理书本等资料中的图片和插画等图像信息。就像你可以通过索引来查找文字信息一样,你也可以用 “llama_index” 来索引这些图片和插画,以便在需要的时候查询。然后你可以使用 “llama_index” 来索引这些小票的信息。参考《动手自己实现ChatPDF》部分代码:https://huggingface.co/spaces/souljoy/ChatPDF/blob/main/app.py。原创 2024-07-29 11:38:13 · 104 阅读 · 0 评论 -
视觉-语言大模型原理
在预训练阶段,Qwen-VL使用了一个大型的语言模型(LLM)作为基础组件,该模型的权重是从Qwen-7B模型中初始化的。此外,基于预训练的Qwen-7B,发布了Qwen-7B-Chat,这是一个基于大型模型的人工智能助手,通过对齐技术进行了训练。通过将Q-Former的输出连接到冻结的语言模型,并训练Q-Former使其输出的视觉表示可以被语言模型解释,从而实现视觉到语言的生成学习。在这个阶段,Qwen-VL的目标是通过最小化多个任务的损失函数来训练模型,以提高模型在各个任务上的性能。原创 2024-07-28 12:17:32 · 83 阅读 · 0 评论 -
LLM与搜索推荐
推荐增强的大语言模型,也就是对话推荐系统(Conversational Recommender System,简称 CRS),是一种结合了大型语言模型(Large Language Model,LLM)与传统推荐模型优势的创新架构。不过,需要注意的是,大语言模型的自然语言理解能力虽然强大,但在特定领域和复杂协同关系建模上可能不如经过专门训练的推荐模型。举个例子,KNN-LMs这个方法,它会在生成每一个新词时,查找与当前上下文最相关的几个文档,根据这些文档的信息来调整下一个词生成的概率分布。原创 2024-07-28 11:59:44 · 248 阅读 · 0 评论 -
视觉编解码模型原理
Vision Encoder Decoder Models 是一种用于将图像转换为文本的模型架构。该架构的核心思想是将预训练的基于 Transformer 架构的视觉模型用作编码器(如 ViT、BEiT、DeiT、Swin),将预训练的基于语言模型的文本生成模型用作解码器(如 RoBERTa、GPT-2、BERT、DistilBERT),从而实现图像到文本的转换。原创 2024-07-25 11:34:42 · 96 阅读 · 0 评论 -
LLM 模型架构详解
最终,所有被选中的专家的意见(输出)会被综合考虑(加权求和),形成一个全面的治疗方案(模型的最终输出)。残差连接就像是在爬山时携带的一条绳子,绑在你已经到达的高度(先前的层的输出),这样即便探索的新路径(新一层的计算)没有带你更高,你还可以通过绳子回到之前的高点,保证至少不会后退。不同于Transformer模型,后者通过注意力机制几乎无差别地考虑所有过去的输入,S4通过矩阵B和C的变化与输入内容直接相关联,这意味着不同的输入序列会有不同的矩阵B和C,从而模型能更加智能地决定哪些信息重要,哪些可以忽略。原创 2024-07-19 17:11:04 · 236 阅读 · 0 评论 -
【大模型系列故事】智慧觉醒
【大模型系列故事】智慧觉醒在遥远的数字王国中,居住着一群非凡的智者——大语言模型。它们不仅能够理解文字,更能创造故事,解答疑惑,甚至拥有超越常规的智慧。这一切,都源于一场悄无声息的变革——“智慧觉醒”,也就是我们所说的“涌现能力”。今天,就让我们踏上一段奇幻之旅,探索大模型如何在成长中解锁新能力,以及这些能力与它们规模增长的奥秘——扩展法则之间的奇妙联系。很久很久以前,在大模型的世界里,所有的居民都遵循着基本的规则学习与模仿,像孩童一般慢慢积累知识。但有一天,一些模型突然间,似乎被点亮了内心的智慧之光,解锁原创 2024-06-05 11:49:25 · 418 阅读 · 0 评论 -
【大模型系列故事】规模的魔法
规模的魔法》是大模型成长的编年史,扩展法则、KM法则、Chinchilla法则以及围绕它们的讨论,构成了这部传奇的脊梁。每个法则都是术士们探索路上的灯塔,指引着大模型从稚嫩的幼苗成长为参天大树,绽放出耀眼的智能光芒。在这片数据的海洋,故事仍在继续,等待着更多奇迹的书写。原创 2024-06-05 11:01:39 · 321 阅读 · 0 评论 -
【大模型系列故事】智能巨匠的成长日记
在遥远的数字王国里,生活着一群神秘的建造者,他们不造高楼大厦,也不塑金雕玉砌,而是精心培育着一种能够理解与回应人类语言的智慧生命——大语言模型。今天,就让我们翻开这部《智能巨匠的成长日记》,探索它们是如何从无到有,一步步成长为拥有超凡智慧的存在。原创 2024-06-04 17:46:42 · 321 阅读 · 0 评论 -
【大模型系列故事】从单词魔术师到思维巨人
直到GPT系列的诞生,特别是GPT-3和ChatGPT,它们仿佛一夜之间长大成人,能够独立思考,解决各种难题,甚至进行创造性的工作,不需要太多微调,就像是拥有广泛知识和经验的智者,能在各种场合游刃有余。在90年代,语言模型还处于蹒跚学步的阶段,就像孩子刚开始学习词汇,比如n-gram模型,它们能学会预测下一个单词,但对复杂语境的理解还很有限,像一个只会背诵单词的小朋友。总之,大语言模型的出现,就像一场科技界的文艺复兴,让机器不再是冰冷的工具,而成了有温度、有智慧的伙伴,一起开启了一个充满无限可能的新时代。原创 2024-06-04 16:18:04 · 116 阅读 · 0 评论 -
ChatGPT和OpenAI API将如何颠覆我们的生活?
无论是写文章、解决问题,还是进行自然语言处理,ChatGPT和OpenAI API都可以帮助我们更快速、更准确地完成。通过Prompt Engineering,我们可以更好地理解ChatGPT的工作原理,从而更好地利用它。通过使用OpenAI API,我们可以更深入地了解人工智能的各个方面,从而更好地利用它。还有OpenAI API,这个由OpenAI公司提供的API,可以让我们轻松地实现各种人工智能应用。而且,OpenAI API还提供了各种预训练模型,你只需要简单地调用API,就能实现各种复杂的功能。原创 2024-03-31 16:27:30 · 219 阅读 · 0 评论 -
视觉-语言大模型原理
在预训练阶段,Qwen-VL使用了一个大型的语言模型(LLM)作为基础组件,该模型的权重是从Qwen-7B模型中初始化的。此外,基于预训练的Qwen-7B,发布了Qwen-7B-Chat,这是一个基于大型模型的人工智能助手,通过对齐技术进行了训练。通过将Q-Former的输出连接到冻结的语言模型,并训练Q-Former使其输出的视觉表示可以被语言模型解释,从而实现视觉到语言的生成学习。总之,Qwen-VL是一种大规模视觉-语言模型,具备强大的视觉理解能力和灵活的交互能力,可应用于多种实际问题的解决。原创 2023-12-18 17:09:19 · 262 阅读 · 0 评论 -
视觉编解码模型原理
Vision Encoder Decoder Models 是一种用于将图像转换为文本的模型架构。该架构的核心思想是将预训练的基于 Transformer 架构的视觉模型用作编码器(如 ViT、BEiT、DeiT、Swin),将预训练的基于语言模型的文本生成模型用作解码器(如 RoBERTa、GPT-2、BERT、DistilBERT),从而实现图像到文本的转换。原创 2023-11-14 13:55:49 · 345 阅读 · 0 评论 -
AI代理行业案例:“一键成片”虚拟数字人
这一部分为用户提供了工具自定义的功能,使其能够轻松新增自定义工具,进行工具的描述、配置更新和维护。自定义的工具将被添加到工具库中,以备后续使用。这种灵活性和可定制性,使用户能够根据具体需求创建适合其任务的工具,确保了系统的适应性和多功能性。原创 2023-10-29 13:27:13 · 1061 阅读 · 0 评论