shichaog
这个作者很懒,什么都没留下…
展开
-
大模型之三十三- 开源Melo 语音合成
文本到语音(TTS)系统从基于基础音素的模型演变成复杂的端到端神经方法,这种方法可以直接将文本转换为语音。这一变革得益于深度学习的进步和计算能力的提升,已经在语音的自然度、韵律控制和跨语言能力方面取得了重大进展。现代TTS系统现在服务于多样化的应用领域,从智能助理到辅助工具和人机交互界面。原创 2025-01-19 12:45:04 · 470 阅读 · 0 评论 -
大模型之三十二-语音合成TTS(coqui) 之二 fine-tune
在[shichaog @CSDN]中提到了xttsv2的fine-tune。 这里公布一下结果。原创 2024-10-15 21:02:24 · 859 阅读 · 0 评论 -
大模型之三十一-音源分离
因为TTS模型训练还有几个结果没出,本篇先介绍一下音乐分离模型吧。其实可能你也猜到了,一部分TTS的数据是网上爬来的,这种音频可能会有背景音之类的,这里需要将乐器类的伴奏去掉。所以就此介绍一下本篇文章吧。在选择和使用音乐源分离工具时,没有“一劳永逸”的最佳方案,因为每首歌曲的录制和混音方式都有所不同。因此,尝试和比较不同的模型和设置,根据具体情况调整策略,是达到最佳分离效果的关键。因为本篇集中在对人声的提取,所以重点关注于vocal的性能。原创 2024-09-10 20:10:09 · 3554 阅读 · 0 评论 -
大模型之三十-语音合成TTS(coqui xTTSv2)
CoquiTTS是一个开源的文字到语音(Text-to-Speech,TTS)系统,旨在使语音合成技术对研究人员、开发者和创造者更加可接近。它基于先前的项目。音色克隆,可以提供仅仅3秒的音频就实现声音克隆;跨语言克隆,比如英文到中文,中文到英文等,共计16中语言24kHz采样率,对于speech够了,但是对于Music一般要支持立体声、44.1kHz流式推理延迟小于200ms支持模型fine-tune。原创 2024-09-09 21:23:10 · 4520 阅读 · 0 评论 -
大模型之二十九-语音识别Whisper推理加速
在上一篇博客《大模型之二十八-语音识别Whisper进阶》中我们留了一个尾巴,就是在流式场景以及如何提升推理速度。原创 2024-08-31 10:31:10 · 2185 阅读 · 0 评论 -
大模型之二十八-语音识别Whisper进阶
在上一篇博客中遗留了几个问题,这里来看一下前两个问题。1.如果不是Huggingface上可以下载的数据该怎么办?2.上面的代码是可以训练了,但是训练的时候loss真的会和我们预期一致吗?比如如下怎么办?原创 2024-08-29 19:07:51 · 2208 阅读 · 0 评论 -
大模型之二十七-语音识别Whisper实例浅析
output_dir:模型权重存储的位置generation_max_length:在评估时,自回归生成token的最大值save_steps:在训练时,中间的checkpoint将在save_step时被保存eval_steps:在训练时,每eval_steps到达时会评估模型性能report_to:训练的log保持的位置fp16=True,原创 2024-08-28 21:05:11 · 9725 阅读 · 0 评论 -
大模型之二十六- 图像生成Diffusion model实例浅析
在2022年,midjourney、DALL-E以及Stable Diffusion三个文生图模型引爆了机器生产文生图领域,他们的模型能够在可控条件(标签、文本描述)下生成高分辨率、细节丰富的多样性图像,这在视觉上往往难以与真实图像区分。以下是他们几个简单的效果对比图。学术和工业界对他们采用的 Diffusion 模型兴趣迅速增长,导致了大量的研究、改进和创新。这推动了技术的发展和成熟,进一步扩大了它们的应用范围和影响力。本篇文章通过一个汽车图片生成的无条件Diffusion模型阐述这一原理。原创 2024-08-25 08:48:55 · 1104 阅读 · 0 评论 -
大模型之二十五-人工智能新纪元
下图是文生图、文本生成、视频生成重大标志性事件,目前的人工解决问题的思路变成了,数据+算力,这比以前简单很多,想想看在以前做语音识别,要分解到音素,用高斯混合模型对声学部分建模,然后再用n-gram对语言部分建模,在5年前的前前司还是一个博士团来做语音识别,而现在我一个人在开源的基础上就可以搞出性能远远领先当时博士团识别系统,这是生产力的革命。这意味着以前做过的事,基本上可以用AI重来一遍,比如语音识别,机器人,游戏,语音合成、医药生物、艺术、影视等等,这会对世界产生深远的影响。原创 2024-08-14 20:45:07 · 328 阅读 · 0 评论 -
大模型之二十三 我用大模型写了本小说
番茄小说发布的2022年原创年度报告数据显示,这一年里,入驻番茄小说的原创作者数增长迅速,较去年增长300%,番茄小说总稿费上涨91%,其中65%的作者是90后作者。而签约作者最多的五个省份分别为:广东、四川、江苏、山东、河南。阅文集团2022年的年报显示,去年阅文新增了约54万名作家及95万本小说,平均每天新增2602本小说,新人要想从同期中杀出来的难度可见一斑。》是我用大模型写作的小说,感兴趣可以看看,感受一下大模型的小说的,当然这过程中也有笔者的参与。原创 2024-02-28 13:15:07 · 8007 阅读 · 2 评论 -
大模型之二十二 OpenAI sora
解码器的作用是将机器理解的视频信息,即潜在表示,映射成人类可以理解的像素空间,OpenAI表示,过去图像和视频的生成方法通常会将视频调整大小、裁剪或者修剪为标准尺寸,但这会损失视频的生成质量,而patch化就不会,这使得Sora的采样灵活性比较高,并且使得构图和取景更准确。中并没有模型和训练技术细节,但是从参考文献看,主要是Google和Meta的技术文档,更多的是现有技术的整合和优化,Sora的秘诀也是Scaling Law,当模型足够大的时候,就会产生智能涌现的能力。原创 2024-02-18 18:09:50 · 1117 阅读 · 0 评论 -
大模型之二十一-小语言模型(SLM)赛道开启
当前提到大语言模型,大家想到的都是动辄百亿规模以上的参数量的模型,13B、70B都是稀疏平常的,但是目前从模型层面来看,拐点已经来临,早期为了效果怼上去,就是训练数据越多越好,模型越大越好,事实也确实证明这么发展的路子的是对的,撇开医疗、法律等行业应用,但就模型层面多模态的趋势已经非常明显,这是巨头企业、政府投入的,绝大大部分公司还是围绕开源的10B左右做行业应用。模型层面接下里的另一个趋势是小,往小了的方向发展。原创 2023-12-21 18:00:30 · 1907 阅读 · 0 评论 -
大模型之二十-中英双语开源大语言模型选型
从ChatGPT火爆出圈到现在纷纷开源的大语言模型,众多出入门的学习者以及跃跃欲试的公司不得不面临的是开源大语言模型的选型问题。基于开源商业许可的开源大语言模型可以极大的节省成本和加速业务迭代。还有很多其他的开源中英大语言模型,但基本都有Llama的影子,有些是直接扩充Lllama的词汇再用新的数据集重新训练,这些大语言模型包括等,这里就不一一列出了。原创 2023-11-17 23:40:49 · 2097 阅读 · 0 评论 -
大模型之十九-对话机器人
大语言模型的最早应用是Chatbot,其实我最早接触语义理解在2014年,2014年做智能音箱的时候,那时也是国内第一批做智能音箱的,在现在看起来当时的智能音箱比较傻,很多问题无法回答,长下文效果也不好,多轮对话效果就更差了,那时对话使用的主要技术是基于规则+知识图谱,所以主要还是停留在命令词识别基础上的交互,比如放音乐类、操控智能家电以及问天气等有限的几个范畴,更多的扮演的事assistent角色,开放式聊天做的并不好。原创 2023-10-28 21:41:42 · 1364 阅读 · 0 评论 -
大语言模型之十八-商业思考
大语言模型在翻译、知识问答、写作、摘要、搜索、代码开发等场景得到了广泛的应用,一些策略是将大语言模型集成到公司的现有产品,比如微软的Office接入ChatGPT。当前大语言模型盈利情况堪忧,今年 5 月有媒体曝出因去年开发出 ChatGPT,OpenAI 亏损 5.4 亿美元,微软在 GitHub Copilot拥有 150 万用户的基础上,每月仍倒贴每位用户 20 美元。前面博客主要内容围绕着优秀的基座模型、模型量化以及fine-tune等技术,其核心思想是降低中小公司的技术门槛和使用成本。原创 2023-10-17 22:28:34 · 1370 阅读 · 2 评论 -
大语言模型之十七-QA-LoRA
由于基座模型通常需要海量的数据和算力内存,这一巨大的成本往往只有巨头公司会投入,所以一些优秀的大语言模型要么是大公司开源的,要么是背后有大公司身影公司开源的,如何从优秀的开源基座模型针对特定场景fine-tune模型具有广大的前景,从数据开源、到基座模型到新方法的迭代升级使得个人都有机会践行fine-tune这一过程。原创 2023-10-12 23:45:10 · 3139 阅读 · 1 评论 -
大语言模型之十六-基于LongLoRA的长文本上下文微调Llama-2
增加LLM上下文长度可以提升大语言模型在一些任务上的表现,这包括多轮长对话、长文本摘要、视觉-语言Transformer模型的高分辨4k模型的理解力以及代码生成、图像以及音频生成等。对长上下文场景,在解码阶段,缓存先前token的Key和Value(KV)需要巨大的内存开销,其次主流的LLM模型在推理的时候上下文长度都小于等于训练时的上下文长度。原创 2023-10-07 21:05:00 · 3148 阅读 · 0 评论 -
大语言模型之十五-预训练和监督微调中文LLama-2
这篇博客是继《》、《》和《前面博客演示了中文词汇的扩充以及给予LoRA方法的预训练模型参数合并,并没有给出LoRA模型参数是如何训练得出的。本篇博客将分析LoRA模型是和训练得到的。还是以7B参数量的模型为例。本篇博客依然基于开源项目。原创 2023-10-03 22:19:58 · 3205 阅读 · 7 评论 -
大语言模型之十四-PEFT的LoRA
在《》和《》中我们都提到了LoRA(低秩分解)方法,之所以用低秩分解进行参数的优化的原因是为了减少计算资源。我们以《》一文中的图3 LLama-2 图例过程为例说明内存的消耗。原创 2023-10-03 20:00:09 · 5126 阅读 · 2 评论 -
大语言模型之十二 SentencePiece扩充LLama2中文词汇
大语言模型的发展潜力已经毋庸置疑了,如何让中文大语言模型更适合中小公司使用这是一道难题。在模型的选择上我们倾向于选择国外的LLama或者BLoom之类的,而不是百川之类的中文大模型,原因在于从基建到框架到数据国外的开源资料非常多,比如Huggingface Transformer、微软的DeepSpeed、meta的LLama、Pytorch,Google的colab、TensorFlow、BERT,这些公司提供了大量开源的技术工具以及成果。原创 2023-09-27 23:22:20 · 2417 阅读 · 0 评论 -
大语言模型之十一 Transformer后继者Retentive Networks (RetNet)
在《大语言模型之四-LlaMA-2从模型到应用》的LLama-2推理图中可以看到,在输入“你好!”时,是串行进行的,即先输入“你”这个token,然后是“好”,再然后是“!”token,前一个token需要保留前面的k和v矩阵,这就意味着随着输入sequence length的增长,需要的内存也会快速增长,计算量也会快速增长。这也显示了Transformer尽管在模型训练的时候并发(相比RNN)性能好,且模型的效果也好,但是推理的时候效率就比较低。原创 2023-09-21 20:28:55 · 1638 阅读 · 4 评论 -
大语言模型之十 SentencePiece
将每个单词看成一个token,然后对其编号,这符合人类语言习惯,但这并不是一个高效的编码方式,这是因为一门语言通常有几万到几十万的单词量,而现在的大语言模型都是支持多国的,如果每个单词独立编码,这就需要语言模型在预测的时候从几万到几百万这样规模的词汇表中选择一个(预测这些词的概率情况),这样的计算量是非常大的。其目的是用一个有限的词表在token数量降到最低的情况下解决所有单词的分词,这是可能的,英文单词词根、词源以及时态等语法,这就意味着很多词都有着相同的部分,似然值的变化就是两个子词之间的互信息。原创 2023-09-17 16:48:16 · 5278 阅读 · 1 评论 -
大语言模型之八-提示工程(Prompt engineer)
大语言模型的效果好,很大程度上归功于算力和数据集,算力使得模型可以足够大,大到模型的理解、记忆、推理和生成以及泛化能力可以同时兼备,而数据集则是模型学习的来源。LLM中的prompt方法主要用于fine-tune阶段,即在预训练的基础上,针对特定任务的模板或提示语,这些提示语通常包含了问题的关键信息,例如问题类型、答案类型、限制条件等,通过少量的标注数据(提示语)对模型进行微调,使其更好地适应特定的任务和应用场景。原创 2023-09-09 09:38:15 · 4607 阅读 · 0 评论 -
大语言模型之七- Llama-2单GPU微调SFT
可以使用tranformers和trl库两种方式实现微调,TRL是huggingface开发的模型微调库,旨在简化和简化语言模型的微调过程,凭借其直观的接口和广泛的功能,TRL使研究人员和从业者能够轻松高效地微调大型语言模型,如LLaMA-v2-7B。通过利用TRL,我们可以释放语言模型化的全部潜力。它为各种NLP任务提供了一套全面的工具和技术,包括文本分类、命名实体识别、情感分析等等。有了TRL,能够根据特定需求微调LLaMA-v2-7B定制模型的功能。原创 2023-09-02 10:16:08 · 7217 阅读 · 0 评论 -
大语言模型之六- LLM之企业私有化部署架构
数据安全是每个公司不得不慎重对待的,为了提高生产力,降本增效又不得不接受新技术带来的工具,私有化部署对于公司还是非常有吸引力的。大语言模型这一工具结合公司的数据可以大大提高公司生产率。原创 2023-08-26 17:05:44 · 6489 阅读 · 0 评论 -
大语言模型之五 谷歌Gemini
近十年来谷歌引领着人工智能方向的发展,从TensorFlow到TPU再到Transformer,都是谷歌在引领着,然而,在大语言模型上,却被ChatGPT(OpenAI)抢了风头,并且知道GPT-4(OpenAI)的推出,谷歌依然没有推出能打的竞品都没有,甚至是后来居上的LlaMA(Meta)类的Google也败下阵来,也许是Google倾尽资源在Gemini上了。原创 2023-08-26 16:45:53 · 2165 阅读 · 0 评论 -
大语言模型之四-LlaMA-2从模型到应用
最近开源大语言模型LlaMA-2火出圈,从huggingface的开源大语言模型排行榜可以看到LlaMA-2还是非常有潜力的开源商用大语言模型之一,相比InstructGPT,LlaMA-2在数据质量、培训技术、能力评估、安全评估和责任发布方面进行了大量的技术更新,此外在商业许可、huggingface等社区支持等方面也做的比较好,本篇文章以7B模型为例介绍LlaMA-2的推理、训练以及应用。相对来说LlaMA-2模型结构比Transformer简单一些,关于Transformer可以参见博客《原创 2023-08-19 22:28:09 · 5419 阅读 · 0 评论 -
大语言模型之三 ChatGPT训练过程
大语言模型 GPT历史文章中简介的大语言模型的的发展史,并且简要介绍了大语言模型的训练过程,本篇文章详细阐述训练的细节和相关的算法。2020年后全球互联网大厂、AI创业公司研发了不少AI超大模型(百亿甚至千亿参数),典型代表是NLP领域的GPT-3,LlaMA,视觉领域的DALL*E2,Stable Diffusion以及V-MoE。现有的生成式AI工具大部分基于大厂研发的预训练模型,用针对特定场景的小数据进行Fine-Tune的模式快速迭代。原创 2023-08-12 14:04:45 · 8352 阅读 · 0 评论 -
大语言模型之二 GPT发展史简介
这个模型是在GPT-3基础上的,是因为GPT-3的非议而提出的,这源于2022年的一篇paper,后面很多大语言模型,不论开源还是闭源都使用到了RLHF(reinforcement learning from human feedback ),这个模型是在GPT-3基础至少得fine-tune的模型。SFT和强化学习使得这个模型可以商用。是核心之一,这里简单介绍,详细介绍见下一篇。原创 2023-08-11 23:41:48 · 4942 阅读 · 0 评论 -
大语言模型之一 Attention is all you need ---Transformer
谷歌提出的Transformer也是包括Encoder和decoder两个部分,只是这两个部分核心是Attention结构,而非CNN、LSTM、GRU等这些结构。对于Encoder,包含两层,一个self-attention层和一个前馈神经网络,self-attention能帮助当前节点不仅仅只关注当前的词,从而能获取到上下文的语义。Decoder也包含encoder提到的两层网络,但是在这两层中间还有一层attention层,帮助当前节点获取到当前需要关注的重点内容。原创 2023-08-11 23:38:54 · 2528 阅读 · 0 评论 -
大语言模型之九- BERT
Natural Language Processing(NLP)包括自然语言理解和自然语言生成,自然语言理解的应用包括语义分析、机器客服、语音识别、机器翻译等。transformer这一深度网络架构在NLP领域占有举足轻重的地位,BERT是基于transformer的自然语言模型,相比于同样基于transformer的GTP3自然语言模型,transformer最早于2017由谷歌研究团队论文《Attention is all You Need》中提出,这带来了NLP领域重大进步。BERT有很多变种架构,R原创 2022-06-11 22:00:53 · 3436 阅读 · 0 评论