- 博客(261)
- 资源 (20)
- 收藏
- 关注
原创 大模型之三十一-音源分离
因为TTS模型训练还有几个结果没出,本篇先介绍一下音乐分离模型吧。其实可能你也猜到了,一部分TTS的数据是网上爬来的,这种音频可能会有背景音之类的,这里需要将乐器类的伴奏去掉。所以就此介绍一下本篇文章吧。在选择和使用音乐源分离工具时,没有“一劳永逸”的最佳方案,因为每首歌曲的录制和混音方式都有所不同。因此,尝试和比较不同的模型和设置,根据具体情况调整策略,是达到最佳分离效果的关键。因为本篇集中在对人声的提取,所以重点关注于vocal的性能。
2024-09-10 20:10:09 1041
原创 大模型之三十-语音合成TTS(coqui)
Coqui TTS是一个开源的文字到语音(Text-to-Speech, TTS)系统,旨在使语音合成技术对研究人员、开发者和创造者更加可接近。它基于先前的项目。音色克隆,可以提供仅仅3 秒的音频就实现声音克隆;跨语言克隆,比如英文到中文,中文到英文等,共计16中语言24kHz采样率,对于speech够了,但是对于Music一般要支持立体声、44.1kHz流式推理延迟小于200ms支持模型fine-tune。
2024-09-09 21:23:10 1002
原创 大模型之二十九-语音识别Whisper推理加速
在上一篇博客《大模型之二十八-语音识别Whisper进阶》中我们留了一个尾巴,就是在流式场景以及如何提升推理速度。
2024-08-31 10:31:10 1144
原创 大模型之二十八-语音识别Whisper进阶
在上一篇博客中遗留了几个问题,这里来看一下前两个问题。1.如果不是Huggingface上可以下载的数据该怎么办?2.上面的代码是可以训练了,但是训练的时候loss真的会和我们预期一致吗?比如如下怎么办?
2024-08-29 19:07:51 1402
原创 大模型之二十七-语音识别Whisper实例浅析
output_dir:模型权重存储的位置generation_max_length:在评估时,自回归生成token的最大值save_steps:在训练时,中间的checkpoint将在save_step时被保存eval_steps:在训练时,每eval_steps到达时会评估模型性能report_to:训练的log保持的位置fp16=True,
2024-08-28 21:05:11 1287
原创 大模型之二十六- 图像生成Diffusion model实例浅析
在2022年,midjourney、DALL-E以及Stable Diffusion三个文生图模型引爆了机器生产文生图领域,他们的模型能够在可控条件(标签、文本描述)下生成高分辨率、细节丰富的多样性图像,这在视觉上往往难以与真实图像区分。以下是他们几个简单的效果对比图。学术和工业界对他们采用的 Diffusion 模型兴趣迅速增长,导致了大量的研究、改进和创新。这推动了技术的发展和成熟,进一步扩大了它们的应用范围和影响力。本篇文章通过一个汽车图片生成的无条件Diffusion模型阐述这一原理。
2024-08-25 08:48:55 598
原创 大模型之二十五-人工智能新纪元
下图是文生图、文本生成、视频生成重大标志性事件,目前的人工解决问题的思路变成了,数据+算力,这比以前简单很多,想想看在以前做语音识别,要分解到音素,用高斯混合模型对声学部分建模,然后再用n-gram对语言部分建模,在5年前的前前司还是一个博士团来做语音识别,而现在我一个人在开源的基础上就可以搞出性能远远领先当时博士团识别系统,这是生产力的革命。这意味着以前做过的事,基本上可以用AI重来一遍,比如语音识别,机器人,游戏,语音合成、医药生物、艺术、影视等等,这会对世界产生深远的影响。
2024-08-14 20:45:07 282
原创 大模型之二十四 2024年AI趋势
AI在24年依然会是突飞猛进的一年,24年一些趋势比较明显,有些会是应用上的突破,有些会是技术上的进步,这些特点总结了一些,也欢迎大家在留言中补充自己认为比较重要的24年 AI趋势点。
2024-03-08 09:49:26 622
原创 大模型之二十三 我用大模型写了本小说
番茄小说发布的2022年原创年度报告数据显示,这一年里,入驻番茄小说的原创作者数增长迅速,较去年增长300%,番茄小说总稿费上涨91%,其中65%的作者是90后作者。而签约作者最多的五个省份分别为:广东、四川、江苏、山东、河南。阅文集团2022年的年报显示,去年阅文新增了约54万名作家及95万本小说,平均每天新增2602本小说,新人要想从同期中杀出来的难度可见一斑。》是我用大模型写作的小说,感兴趣可以看看,感受一下大模型的小说的,当然这过程中也有笔者的参与。
2024-02-28 13:15:07 3799 2
原创 大模型之二十二 OpenAI sora
解码器的作用是将机器理解的视频信息,即潜在表示,映射成人类可以理解的像素空间,OpenAI表示,过去图像和视频的生成方法通常会将视频调整大小、裁剪或者修剪为标准尺寸,但这会损失视频的生成质量,而patch化就不会,这使得Sora的采样灵活性比较高,并且使得构图和取景更准确。中并没有模型和训练技术细节,但是从参考文献看,主要是Google和Meta的技术文档,更多的是现有技术的整合和优化,Sora的秘诀也是Scaling Law,当模型足够大的时候,就会产生智能涌现的能力。
2024-02-18 18:09:50 1021
原创 大模型之二十一-小语言模型(SLM)赛道开启
当前提到大语言模型,大家想到的都是动辄百亿规模以上的参数量的模型,13B、70B都是稀疏平常的,但是目前从模型层面来看,拐点已经来临,早期为了效果怼上去,就是训练数据越多越好,模型越大越好,事实也确实证明这么发展的路子的是对的,撇开医疗、法律等行业应用,但就模型层面多模态的趋势已经非常明显,这是巨头企业、政府投入的,绝大大部分公司还是围绕开源的10B左右做行业应用。模型层面接下里的另一个趋势是小,往小了的方向发展。
2023-12-21 18:00:30 1694
原创 大模型之二十-中英双语开源大语言模型选型
从ChatGPT火爆出圈到现在纷纷开源的大语言模型,众多出入门的学习者以及跃跃欲试的公司不得不面临的是开源大语言模型的选型问题。基于开源商业许可的开源大语言模型可以极大的节省成本和加速业务迭代。还有很多其他的开源中英大语言模型,但基本都有Llama的影子,有些是直接扩充Lllama的词汇再用新的数据集重新训练,这些大语言模型包括等,这里就不一一列出了。
2023-11-17 23:40:49 1549
原创 大模型之十九-对话机器人
大语言模型的最早应用是Chatbot,其实我最早接触语义理解在2014年,2014年做智能音箱的时候,那时也是国内第一批做智能音箱的,在现在看起来当时的智能音箱比较傻,很多问题无法回答,长下文效果也不好,多轮对话效果就更差了,那时对话使用的主要技术是基于规则+知识图谱,所以主要还是停留在命令词识别基础上的交互,比如放音乐类、操控智能家电以及问天气等有限的几个范畴,更多的扮演的事assistent角色,开放式聊天做的并不好。
2023-10-28 21:41:42 1047
原创 大语言模型之十八-商业思考
大语言模型在翻译、知识问答、写作、摘要、搜索、代码开发等场景得到了广泛的应用,一些策略是将大语言模型集成到公司的现有产品,比如微软的Office接入ChatGPT。当前大语言模型盈利情况堪忧,今年 5 月有媒体曝出因去年开发出 ChatGPT,OpenAI 亏损 5.4 亿美元,微软在 GitHub Copilot拥有 150 万用户的基础上,每月仍倒贴每位用户 20 美元。前面博客主要内容围绕着优秀的基座模型、模型量化以及fine-tune等技术,其核心思想是降低中小公司的技术门槛和使用成本。
2023-10-17 22:28:34 1250 2
原创 大语言模型之十七-QA-LoRA
由于基座模型通常需要海量的数据和算力内存,这一巨大的成本往往只有巨头公司会投入,所以一些优秀的大语言模型要么是大公司开源的,要么是背后有大公司身影公司开源的,如何从优秀的开源基座模型针对特定场景fine-tune模型具有广大的前景,从数据开源、到基座模型到新方法的迭代升级使得个人都有机会践行fine-tune这一过程。
2023-10-12 23:45:10 2593 1
原创 大语言模型之十六-基于LongLoRA的长文本上下文微调Llama-2
增加LLM上下文长度可以提升大语言模型在一些任务上的表现,这包括多轮长对话、长文本摘要、视觉-语言Transformer模型的高分辨4k模型的理解力以及代码生成、图像以及音频生成等。对长上下文场景,在解码阶段,缓存先前token的Key和Value(KV)需要巨大的内存开销,其次主流的LLM模型在推理的时候上下文长度都小于等于训练时的上下文长度。
2023-10-07 21:05:00 2837
原创 大语言模型之十五-预训练和监督微调中文LLama-2
这篇博客是继《》、《》和《前面博客演示了中文词汇的扩充以及给予LoRA方法的预训练模型参数合并,并没有给出LoRA模型参数是如何训练得出的。本篇博客将分析LoRA模型是和训练得到的。还是以7B参数量的模型为例。本篇博客依然基于开源项目。
2023-10-03 22:19:58 2989 7
原创 大语言模型之十四-PEFT的LoRA
在《》和《》中我们都提到了LoRA(低秩分解)方法,之所以用低秩分解进行参数的优化的原因是为了减少计算资源。我们以《》一文中的图3 LLama-2 图例过程为例说明内存的消耗。
2023-10-03 20:00:09 4299 2
原创 大语言模型之十三 LLama2中文推理
在《》一文中已经扩充好了中文词汇表,接下来就是使用整理的中文语料对模型进行预训练了。这里先跳过预训练环节。先试用已经训练好的模型,看看如何推理。
2023-09-28 23:00:00 2304 1
原创 大语言模型之十二 SentencePiece扩充LLama2中文词汇
大语言模型的发展潜力已经毋庸置疑了,如何让中文大语言模型更适合中小公司使用这是一道难题。在模型的选择上我们倾向于选择国外的LLama或者BLoom之类的,而不是百川之类的中文大模型,原因在于从基建到框架到数据国外的开源资料非常多,比如Huggingface Transformer、微软的DeepSpeed、meta的LLama、Pytorch,Google的colab、TensorFlow、BERT,这些公司提供了大量开源的技术工具以及成果。
2023-09-27 23:22:20 2082
原创 大语言模型之十一 Transformer后继者Retentive Networks (RetNet)
在《大语言模型之四-LlaMA-2从模型到应用》的LLama-2推理图中可以看到,在输入“你好!”时,是串行进行的,即先输入“你”这个token,然后是“好”,再然后是“!”token,前一个token需要保留前面的k和v矩阵,这就意味着随着输入sequence length的增长,需要的内存也会快速增长,计算量也会快速增长。这也显示了Transformer尽管在模型训练的时候并发(相比RNN)性能好,且模型的效果也好,但是推理的时候效率就比较低。
2023-09-21 20:28:55 1219 4
原创 大语言模型之十 SentencePiece
将每个单词看成一个token,然后对其编号,这符合人类语言习惯,但这并不是一个高效的编码方式,这是因为一门语言通常有几万到几十万的单词量,而现在的大语言模型都是支持多国的,如果每个单词独立编码,这就需要语言模型在预测的时候从几万到几百万这样规模的词汇表中选择一个(预测这些词的概率情况),这样的计算量是非常大的。其目的是用一个有限的词表在token数量降到最低的情况下解决所有单词的分词,这是可能的,英文单词词根、词源以及时态等语法,这就意味着很多词都有着相同的部分,似然值的变化就是两个子词之间的互信息。
2023-09-17 16:48:16 3611
原创 大语言模型之八-提示工程(Prompt engineer)
大语言模型的效果好,很大程度上归功于算力和数据集,算力使得模型可以足够大,大到模型的理解、记忆、推理和生成以及泛化能力可以同时兼备,而数据集则是模型学习的来源。LLM中的prompt方法主要用于fine-tune阶段,即在预训练的基础上,针对特定任务的模板或提示语,这些提示语通常包含了问题的关键信息,例如问题类型、答案类型、限制条件等,通过少量的标注数据(提示语)对模型进行微调,使其更好地适应特定的任务和应用场景。
2023-09-09 09:38:15 3951
原创 大语言模型之七- Llama-2单GPU微调SFT
可以使用tranformers和trl库两种方式实现微调,TRL是huggingface开发的模型微调库,旨在简化和简化语言模型的微调过程,凭借其直观的接口和广泛的功能,TRL使研究人员和从业者能够轻松高效地微调大型语言模型,如LLaMA-v2-7B。通过利用TRL,我们可以释放语言模型化的全部潜力。它为各种NLP任务提供了一套全面的工具和技术,包括文本分类、命名实体识别、情感分析等等。有了TRL,能够根据特定需求微调LLaMA-v2-7B定制模型的功能。
2023-09-02 10:16:08 6683
原创 大语言模型之六- LLM之企业私有化部署架构
数据安全是每个公司不得不慎重对待的,为了提高生产力,降本增效又不得不接受新技术带来的工具,私有化部署对于公司还是非常有吸引力的。大语言模型这一工具结合公司的数据可以大大提高公司生产率。
2023-08-26 17:05:44 5570
原创 大语言模型之五 谷歌Gemini
近十年来谷歌引领着人工智能方向的发展,从TensorFlow到TPU再到Transformer,都是谷歌在引领着,然而,在大语言模型上,却被ChatGPT(OpenAI)抢了风头,并且知道GPT-4(OpenAI)的推出,谷歌依然没有推出能打的竞品都没有,甚至是后来居上的LlaMA(Meta)类的Google也败下阵来,也许是Google倾尽资源在Gemini上了。
2023-08-26 16:45:53 1826
原创 大语言模型之四-LlaMA-2从模型到应用
最近开源大语言模型LlaMA-2火出圈,从huggingface的开源大语言模型排行榜可以看到LlaMA-2还是非常有潜力的开源商用大语言模型之一,相比InstructGPT,LlaMA-2在数据质量、培训技术、能力评估、安全评估和责任发布方面进行了大量的技术更新,此外在商业许可、huggingface等社区支持等方面也做的比较好,本篇文章以7B模型为例介绍LlaMA-2的推理、训练以及应用。相对来说LlaMA-2模型结构比Transformer简单一些,关于Transformer可以参见博客《
2023-08-19 22:28:09 4962
原创 大语言模型之三 ChatGPT训练过程
大语言模型 GPT历史文章中简介的大语言模型的的发展史,并且简要介绍了大语言模型的训练过程,本篇文章详细阐述训练的细节和相关的算法。2020年后全球互联网大厂、AI创业公司研发了不少AI超大模型(百亿甚至千亿参数),典型代表是NLP领域的GPT-3,LlaMA,视觉领域的DALL*E2,Stable Diffusion以及V-MoE。现有的生成式AI工具大部分基于大厂研发的预训练模型,用针对特定场景的小数据进行Fine-Tune的模式快速迭代。
2023-08-12 14:04:45 6491
原创 大语言模型之二 GPT发展史简介
这个模型是在GPT-3基础上的,是因为GPT-3的非议而提出的,这源于2022年的一篇paper,后面很多大语言模型,不论开源还是闭源都使用到了RLHF(reinforcement learning from human feedback ),这个模型是在GPT-3基础至少得fine-tune的模型。SFT和强化学习使得这个模型可以商用。是核心之一,这里简单介绍,详细介绍见下一篇。
2023-08-11 23:41:48 4376
原创 大语言模型之一 Attention is all you need ---Transformer
谷歌提出的Transformer也是包括Encoder和decoder两个部分,只是这两个部分核心是Attention结构,而非CNN、LSTM、GRU等这些结构。对于Encoder,包含两层,一个self-attention层和一个前馈神经网络,self-attention能帮助当前节点不仅仅只关注当前的词,从而能获取到上下文的语义。Decoder也包含encoder提到的两层网络,但是在这两层中间还有一层attention层,帮助当前节点获取到当前需要关注的重点内容。
2023-08-11 23:38:54 2200
原创 WebRTC paced sender
然而视频分为I/P/B三种类型的帧,I帧压缩率最低但是可以独立解码,P帧可以使用前帧信息解码因而压缩率比I帧大一些,B帧可以使用来自前后帧的信息解码因而压缩率是最大的,因而通常每帧大小并不一样,这就导致短时生成的需要发送的视频流可以很大也可以是零,此外,视频编码器在突然移动的情况下超过目标帧大小也是比较常见的,尤其是在处理屏幕共享时,比理想尺寸大10倍甚至100倍是一个非常常见的场景。6.根据RTP数据包的SSRC,步骤5中的路由对象将RTP数据包发送到对应的RTP模块,在该RTP模块中由。
2023-02-19 21:47:11 925 1
原创 WebRTC音频系统 音频发送和接收
在交互式实时通信场景中,实时通信音频数据的编码发送不同于直播场景 RTMP 之类的推流方案不同,实时通信的实时性优先,而直播场景的可靠性优先,因而实时通信场景上层一般采用UDP/RTP协议,而直播推流场景采用RTMP/TCP协议,实时通信的实时性优先,并不意味着质量要求不高,基于UDP传输的丢包、抖动乱序都会带来通信质量的下降,因而在接收端WebRTC采用了NetEQ技术,而在发送端则需要根据探测到的网络条件、接收端发回来的 RTCP 包来动态调整控制编码码率。创建并注册transport。
2023-02-04 19:18:31 4424 1
原创 WebRTC音频系统 peerconnection初始化
如果要传输多路视频,则他们在视频媒体描述中需要通过SSRC来区分。在创建音视频Track的时候,其中一个非常重要的参数是源,音频源和视频源的本意是一样的,即可以生成数据的设备,source和Track分开是因为一个source可以向多个不同的track提供数据,即AudioSourceInterface是AudioTracks以引用计数方式使用的一个源,在2.2.3小节中,视频Track创建的参数确实是设备,而音频的源参数则不是真正意义上的设备,其音频源的创建见2.3.1小节。
2023-02-04 18:56:38 1356
原创 WebRTC模块化设计思想之编解码
编码器的种类很多,有Opus,G711,Isac,PcmA,G722等,这些都是第三方的库或者开源软件,为了和第三方的隔离,只需第三方提供的接口文件以及相应的库就行,并不需要编译第三方库源码,类似上面的方法,封装一层;由上可以看出,只要AudioCodingModule定义好,则TwoWayCommunication这个类所属的模块开发者就可以开发编译调试自己的模块,而不必关心AudioCodingModuleImpl是否实现了对应的方法,只在双方联调的时候才需要对方正确实现该接口类中的方法。...
2022-08-12 19:15:00 670
原创 A股市场宽度(python实现)
这张图反应了市场的宽度情况,即沪深300和中证500按照行业分类股票情况,第一行是整体情况,比如2022-08-05第一行,表示沪深300(总共300支股票)共有79只股票价格是高于20日均线的,依次类推,对于电子这一分类(共30只股票)共有26只大于20日均线,颜色从深绿到深红,依次从0支股票到全部股票都超越20日均线。上开了个关于投资的库,因为主要使用了python pandas库,这里主要是展示该库的使用,至于投资方面的,欢迎留言以及GitHub上提issue和question,不足之处也恳请指正。.
2022-08-07 17:13:31 730 1
原创 深度学习之 python pandas
在数据科学领域,pandas是非常有用的工具,在数据科学细分领域大数据(通常和深度学习有关)这部分,本篇博客从pandas重要函数开始,到数据变换以及数据分析。pandas提供了数据变换、数据清理、数据可视化以及数据提取等主要数据处理功能。...
2022-08-03 20:00:00 680
原创 深度学习之 Python3基础
python3是面向对象编程语言,和初学c语言一样,先从hello world开始。以#!开始的第一行被称为Shebang行,一般作为文本文件的第一行出现,表示执行该脚本文件的默认解释器。其下图显示了其作用。第一行的报错是没有#!开始行,而第二行则是上面完整程序片段运行结果,在很多脚本程序中都有该Shebang行,如shell等。第二行的# Copyright 2022 shichaog是注释行,第三行则是hello world主体,print(‘Hello, World.’),相比于c语言,简单很多
2022-07-10 15:07:59 674
深度学习 模型调优 keras mnist
2022-06-06
bluetooth BLE server
2016-12-12
vim 技巧和插件
2015-05-08
linux tcp/ip协议栈
2015-04-22
Linux系统启动那些事—基于Linux 3.10内核
2014-10-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人