音频技术
文章平均质量分 90
音频技术
小爷毛毛(卓寿杰)
NLP对话问答、大模型、AIGC。
微信视频号:毛毛讲书,欢迎关注进一步交流!
展开
-
音频-语言大模型原理
直接偏好优化 (DPO) 是一种优化技术,它帮助模型更好地理解并遵循人类的偏好。对于Qwen2-Audio来说,DPO主要用于优化模型的响应,使其更加符合用户的期望,尤其是在事实准确性与行为一致性方面。这个公式的目标是让模型更倾向于生成好的响应(y_w)而不是较差的响应(y_l)。DPO的目标是让模型生成的响应更接近于人类认为好的响应。为此,我们需要准备一个带有偏好信息的数据集,其中包含了对每组输入的好坏响应标注。在语音理解方面,模型架构主要包括两个连续的模块:语音编码器和适配器。原创 2024-09-08 14:49:38 · 898 阅读 · 0 评论 -
动手打造互动虚拟人
【代码】动手打造互动虚拟人。原创 2024-09-03 09:09:50 · 662 阅读 · 0 评论 -
数字虚拟人原理
通过调整基础形状和纹理的系数,可以生成不同的面部形状和纹理。具体地,头部姿态系数(ρ)可以表示为一个6维向量,其中前3维表示旋转参数(r),后3维表示平移参数(t)。通过调整这些头部姿态系数,可以改变生成的头部动画的姿态,使其与音频内容相匹配。通过从音频中学习生成头部姿态系数(ρ),从而实现了根据音频生成真实的3D运动系数。这些生成的头部姿态系数可以用于调整生成的面部动画,以使其更加逼真和自然。在3D面部重建中,β用于表示面部的表情变化。通过调整β的值,可以改变面部的表情,如微笑、皱眉等。原创 2024-08-21 10:46:35 · 196 阅读 · 0 评论 -
AI歌手-五月天(声音转换)
训练结果参考:https://huggingface.co/souljoy/so-vits-svc-mayday。使用FaceBook的Demucs,将audio.wav 分成 Vocal + Instrument。安装 Demucs 分割音频。原创 2024-08-17 16:50:16 · 200 阅读 · 0 评论 -
音乐生成模型应用
接下来我们来介绍如何使用预训练的AudioLDM2模型来生成音频,并通过不同的提示(prompt)和反向提示(negative prompt)来影响生成的音频质量。原创 2024-08-14 15:53:55 · 157 阅读 · 0 评论 -
动手研发实时口译系统
使用Whisper模型进行语音翻译(Speech-to-Speech Translation,STST)的过程。接下啦,我们使用Gradio库创建一个STST(Speech-to-Speech Translation)将英文文本转换成英文语音的过程,即文本到语音(Text-to-Speech,TTS)的转换。这里使用了专门针对英文TTS训练的SpeechT5模型。原创 2024-08-14 15:50:35 · 375 阅读 · 0 评论 -
文本生音频 与 音频生音频
受 Stable Diffusion 的启发,AudioLDM 2 是一种文生音频的隐扩散模型 (latent diffusion model,LDM),其可以将文本嵌入映射成连续的音频表征。Voice conversion(VC)是一种将源说话人的语音转换为目标说话人风格的技术,同时保持语言内容不变。损失函数分为CVAE相关的损失和GAN相关的损失。它是声音中最基本的频率成分,决定了声音的音高。编码器提取源音频语音特征,与 F0 同时输入 VITS 替换原本的文本输入达到歌声转换的效果。原创 2024-08-12 10:03:34 · 202 阅读 · 0 评论 -
文本转语音(TTS)与语音到语音翻译(STST)
对于语音到文本的任务,每个输入语音只对应一个正确的输出文本,但是对于文本到语音的任务,输入文本可以映射到多个可能的语音。这也是一种数据和计算效率很高的开发STST系统的方式,因为现有的语音识别和文本到语音系统可以耦合在一起,产生新的STST模型,无需进行任何额外的训练。我们也可以使用三阶段方法,首先使用自动语音识别(ASR)系统将源语音转录成同一语言的文本,然后使用机器翻译将转录的文本翻译成目标语言,最后使用文本到语音生成目标语言的语音。在ASR模型中,解码器的初始输出序列是一个仅包含“起始”标记的序列。原创 2024-08-12 09:51:18 · 98 阅读 · 0 评论 -
动手训练粤语语音识别模型
在最后一步,我们定义了与训练相关的所有参数。在这里,我们将训练步数设置为100。这足够多的步数,可以与预训练的Whisper模型相比看到很大的词错误率(WER)改进。更多参数说明,参阅:https://huggingface.co/docs/transformers/main_classes/trainer#transformers.Seq2SeqTrainingArgumentsoutput_dir="./whisper-tiny-zh-HK", # 模型上传到HF Hub的名称。原创 2024-08-09 17:10:42 · 213 阅读 · 0 评论 -
动手训练音乐风格分类模型
模型将为我们定义的**每个标签返回一个分类概率。原创 2024-08-09 17:06:25 · 72 阅读 · 0 评论 -
语音识别文本纠错模型
文本纠错任务是一项NLP基础任务,其输入是一个可能含有错误字词的句子,输出是一个正确的中文句子。ASR(语音识别)文本的错误类型很多,有多字、少字、错别字、同音近音字等等。原创 2022-03-29 18:43:53 · 5859 阅读 · 0 评论 -
基于Transformer的语音识别与音频分类
例如,如果我们的预测序列是 B_R_II_O_N_||S_AWW|||||S_OMEE_TH_ING||_C_L_O_S_E||TO|P_A_N_I_C||_ON||HHI_S||OP_P_O_N_EN_T’SS||_F_AA_C_E||W_H_EN||THE||M_A_NN||||_F_I_N_AL_LL_Y||||_RREE_C_O_GG_NN_II_Z_ED|||HHISS|||_ER_RRR_ORR||||我们知道语音和文本的顺序是相同的(对齐是单调的),但我们不知道文本中的字符如何与音频对齐。原创 2024-08-04 16:56:18 · 281 阅读 · 0 评论 -
解读:阿里文娱搜索算法实践与思考
我们的问题是从什么维度去理解视频?得益于深度学习在各个领域的全面发展,现在有能力做相关技术,包括。原创 2021-07-01 15:25:50 · 473 阅读 · 0 评论 -
【网易云音乐】基于行为序列的召回&精排模型
据介绍,基于音乐知识图谱,云音乐得到不同实体之间一步两步甚至多步的关系,比如表面上看起来可能毫不相干的两个艺人,因为这两位艺人同时给同一个电视剧演唱的关系,就形成了一个关联关系。但云音乐的工程师们在实践做,发现兴趣融合门机制部分,长期兴趣的权重非常小,最终用户加权的向量表示基本只包含了短期的兴趣,而对长期的兴趣影响非常小。但个人认为,分成长期兴趣空间和短期兴趣空间,那就意味着线上serving模块需要基于2个用户的兴趣表示进行召回,也就多了两者召回比例的超参数需要调节 ==需将id分不同种类后,各自基于。原创 2021-03-27 19:35:59 · 992 阅读 · 1 评论 -
论文阅读:《Improving Content-based and Hybrid Music Recommendation using Deep Learning》
https://blog.csdn.net/u011239443/article/details/79984751论文地址:https://www.smcnus.org/wp-content/uploads/2013/09/deep_mr.pdf摘要 现有的基于内容的音乐推荐系统通常采用两阶段的方法。他们首先提取传统的音频内容特征,如 Mel-frequency cepstra...原创 2018-04-18 10:01:35 · 1198 阅读 · 0 评论 -
采用深度学习算法为Spotify做基于内容的音乐推荐
http://www.csdn.net/article/2015-02-10/2823907摘要:本文概述了作者在Spotify的机器学习实践经验,解释了使用卷积神经网络(CNN)做基于音频的音乐推荐的方法,并提出了有关该卷积网络的实际学习效果的心得。采用了GTX 780Ti GPU,Theano软件框架,小批量梯度下降法。转载 2017-06-11 15:30:34 · 3515 阅读 · 0 评论 -
【Spark Mllib】K-均值聚类——电影类型
经过损失函数的评估,将性能最好的一次训练选定为最终的模型。试图将一系列样本分割成K个不同的类簇(其中K是模型的输入参数),其形式化的目标函数称为类簇内的方差和(within cluster sum of squared errors,WCSS)。但是,也有证据表明聚类过程会提取电影之间的属性或者相似之处,这不是单纯基于电影名称和题材容易看出来的(比如外语片的类簇和传统电影的类簇,等等)。内部评价指标WCSS(我们之前提过的K-元件的目标函数),是使类簇内部的样本距离尽可能接近,不同类簇的样本相对较远。原创 2016-06-18 23:29:26 · 7939 阅读 · 1 评论 -
MovieTaster-使用Item2Vec做电影推荐
https://blog.csdn.net/fly_time2012/article/details/78439662前言自从Mikolov在他2013年的论文“Efficient Estimation of Word Representation in Vector Space”[1]提出词向量的概念后,NLP领域仿佛一下子进入了embedding的世界,Sentence2Vec、Do...转载 2018-08-27 13:00:08 · 2333 阅读 · 1 评论 -
当前音乐推荐系统研究中的挑战和愿景
近年来,由于在线流媒体服务的出现和成功,音乐推荐系统(MRS)经历了飞速发展,如今,在线推荐服务几乎可以使所有音乐触手可及。尽管当今的MRS可以极大地帮助用户在这些庞大的目录中找到有趣的音乐,但MRS的研究仍面临着严峻的挑战。特别是在构建、合并和评估推荐策略时,这些策略除了将信息整合到简单的用户物品交互、基于内容表达之外,还需要深入挖掘听众的需求、偏好和意图的本质。MRS研究成为很大的努力方向,但相关的出版物却很少。此趋势和调查文章的目的是双重的。原创 2020-09-21 18:50:13 · 4581 阅读 · 0 评论