林林宋
码龄7年
关注
提问 私信
  • 博客:388,360
    388,360
    总访问量
  • 196
    原创
  • 6,733
    排名
  • 283
    粉丝
  • 10
    铁粉
  • 学习成就

个人简介:不要急,不要慌,知识总是一点点积累起来的

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2017-09-09
博客简介:

林宋的搬砖流水账

查看详细资料
  • 原力等级
    成就
    当前等级
    5
    当前总分
    1,236
    当月
    1
个人成就
  • 获得323次点赞
  • 内容获得73次评论
  • 获得904次收藏
  • 代码片获得675次分享
创作历程
  • 24篇
    2024年
  • 40篇
    2023年
  • 44篇
    2022年
  • 58篇
    2021年
  • 35篇
    2020年
  • 99篇
    2019年
  • 20篇
    2018年
成就勋章
TA的专栏
  • 基础工具
    3篇
  • 闲暇了解
    16篇
  • 工程上线相关
    1篇
  • 读书笔记
    10篇
  • 芯片
    2篇
  • 信号处理
    3篇
  • 深度学习基础知识
    31篇
  • paper笔记
    163篇
  • 数据结构
    3篇
  • 语音预处理
    13篇
  • 机器学习
    9篇
  • debug
    1篇
  • 合成基础
    4篇
  • linux
    16篇
  • 实验记录
    4篇
  • flowwavenet
    4篇
  • voice conversion
    4篇
  • 组会周报
  • leetcode
    3篇
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

175人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

MaskGCT: Zero-Shot Text-to-Speech with Masked Generative Codec Transformer

两级结构:两个masked generate transformer的模型,将一张图量化成固定的离散点,每次mask一部分,剩下的是ground truth,然后去预测mask的部分。text2semantic的时长是提前给到的;semantic token来自w2v-bert-2.0;acoustic token 的encoder 来自DAC, decoder来自vocos;
原创
发布博客 2024.10.31 ·
257 阅读 ·
7 点赞 ·
0 评论 ·
3 收藏

Moshi

NA​3×10−52×10−43×10−65×10−52×10−64×10−62×10−62×10−6。
原创
发布博客 2024.10.15 ·
1046 阅读 ·
15 点赞 ·
0 评论 ·
25 收藏

FireRedTTS

DATA: 248k 数据。
翻译
发布博客 2024.09.10 ·
134 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

UniAudio

一个LLM模型做11个音频任务token的类型:Phoneme,MIDI转成frame-f0,text【机器翻译模型提取的emb+T5】,Semantic Token【Hubert 9th layer-kmeans】模型的缺点:同时有多种任务,数据的质量不能保证;可能会引入错误;1B 的模型size基于各种audio 数据,重新训练的codec,优化了判别器;基于自己的模型,8个码本 的效果更好;
翻译
发布博客 2024.09.09 ·
63 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

全双工语音交互

文章目录微软小冰全双工字节大模型语音交互[Language Model Can Listen While Speaking](https://arxiv.org/html/2408.02622v1)微软小冰全双工全双工的定义:一路持续的听,upload audio;一路持续的输出,download audio;涉及对输入音频的理解,包括语义理解,场景处理【是否多人对话,是在和机器人对话还是接听电话,混响降噪等】,节奏控制【比如有多段回复在进程池中,需要控制下一句回复什么,是否有的句子不需要回复,
原创
发布博客 2024.09.05 ·
322 阅读 ·
7 点赞 ·
0 评论 ·
1 收藏

DAC: High-Fidelity Audio Compression with Improved RVQGAN

Rithesh KumarDescript, Inc.2023NIPScode文章目录abstratmethodabstrat44.1k音频编码为8k bps,接近90x压缩比;可以处理speech, musiccodebook collapse: 部分码本没有利用到。----quantizer dropout :允许单个模型支持可变比特率,但实际上会损害全带宽音频的质量。-----method编码器评判的标准:(1)近乎无损的还原;(2)高压缩比;(3)适用于各种信号(spe
原创
发布博客 2024.08.30 ·
350 阅读 ·
4 点赞 ·
0 评论 ·
10 收藏

SemantiCodec: An Ultra Low Bitrate Semantic Audio Codec for General Sound

audioCodec可以将音频量化,从而复用LLM结构,但是大部分高质量的Codec码率都比较高,不利于模型训练收敛,计算开销也很大。本文的目的是提出一个低比特率 & 高质量的Codec。提出SemantiCodec,支持三种比特率,25/50/100;semantic encoder,使用自监督的AudioMAE,+ kmeans 聚类;基于大数据得到聚类,分类准确度有95%。
原创
发布博客 2024.08.29 ·
528 阅读 ·
9 点赞 ·
0 评论 ·
14 收藏

PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation

PeriodWave,第一个基于周期信息用于高分辨音频生成的结构。使用生成能力强大的flow-matching,结合优化器路径进行快速采样。探讨不同的ODE对于音频生成的效果。使用多周期估计器【使用质数prime number避免重叠】可以显著提升语音质量,但是会增大计算量导致infer 变慢。本文提出一个period-conditional universal estimator ,可以在推理阶段并行的推理多个周期路径。此外,还使用DWT变换,用以建模高频低频信息。用FreeU 降低高频噪声。
原创
发布博客 2024.08.26 ·
1008 阅读 ·
15 点赞 ·
0 评论 ·
16 收藏

Seed-TTS

因为一句prompt 生成多句音频,导致合成音频的韵律会比较单调,虽然和prompt 相似度比较高,但是不符合真实世界口语表达的风格多样性。WER: Whisper-large-v3 测试,并不是WER 越低越好,因为有的带口音,合成音频WER低可能说明相似度不够;
原创
发布博客 2024.08.19 ·
910 阅读 ·
27 点赞 ·
0 评论 ·
10 收藏

GPT-SoVITS

【代码】GPT-SoVITS。
原创
发布博客 2024.08.14 ·
472 阅读 ·
10 点赞 ·
0 评论 ·
2 收藏

diffusion sampler

Karras noise schedule:名字带Karras的采样器,会在接近终点附近的几个step,noise 更小;作者对比该策略有助于实现更好的生成质量。名字中带a的,采样结果不收敛;考虑到可复现性,我们通常更喜欢可以收敛的结果。当然,如果想要稍微有些变化,可以使用 variational seed。Heun – A more accurate but slower version of Euler. 因为每步要采样两次。Ancestor Samplers:比如。
原创
发布博客 2024.08.08 ·
332 阅读 ·
9 点赞 ·
0 评论 ·
1 收藏

MELLE: Autoregressive Speech Synthesis without Vector Quantization

预测连续的mel spec代替预测VQ采样。难点在于:如何设计损失函数,LLM使用CE loss;---- 使用回归loss,并且引入spectrogram flux loss 以增加预测梅尔频谱的多样性并消除重复问题;如何增加多样性,LLM 通过top-k的选择,-----使用latent sampling module,源于自变分推断,作为一种序列采样策略,从而增强生成的音频样本的多样性。并且reduction scaler是可以调整的,得以一次预测多帧mel,减少序列长度不匹配的难点。
原创
发布博客 2024.07.30 ·
1100 阅读 ·
24 点赞 ·
0 评论 ·
23 收藏

Cosyvoice

监督训练得到的speech token,
原创
发布博客 2024.07.29 ·
177 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Laugh Now Cry Later: Controlling Time-Varying Emotional States of Flow-Matching-Based Zero-Shot Text

motivation: 使用flow-matching的结构,实现对TTS细粒度的情感控制,并且能够合成【哭、笑】等非语言表达。dataset:清洗了2.7w 小时的情感数据;基于meta的voicebox 架构,是对ELaTE工作的扩展(也是做细粒度情感控制,但是只能合成笑声)
翻译
发布博客 2024.07.24 ·
65 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

GenerTTS: Pronunciation Disentanglement for Timbre and Style Generalization in Cross-Lingual TTS

通常TTS收集的数据都是单语种,单风格的,也就是说语言和音色绑定,风格和音色绑定。为了解决这些问题,作者提出GenerTTS,(1)hubert-based bottleneck解耦音色和发音/风格,(2)使用互信息,mutual info,最小化style和语言之间的关系;
原创
发布博客 2024.05.30 ·
643 阅读 ·
7 点赞 ·
0 评论 ·
9 收藏

RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for TTS

使用CoT的思路,和Valle的框架,先实现LLM预测音素级别pitch/duration,然后预测speech token。
原创
发布博客 2024.05.15 ·
403 阅读 ·
4 点赞 ·
0 评论 ·
6 收藏

风格迁移adaIN 和DiT的adaLN

BN主要缺点是对batchsize的大小比较敏感,由于每次计算均值和方差是在一个batch上,所以如果batchsize太小,则计算的均值、方差不足以代表整个数据分布。因为在图像风格化中,生成结果主要依赖于某个图像实例,所以对整个batch归一化不适合图像风格化中,因而对HW做归一化。可以加速模型收敛,并且保持每个图像实例之间的独立。LayerNorm:channel方向做归一化,算CxHxW的均值,主要对RNN(处理序列)作用明显,目前大火的Transformer也是使用的这种归一化操作;
原创
发布博客 2024.04.24 ·
1587 阅读 ·
5 点赞 ·
0 评论 ·
10 收藏

stabel-TTS

文章目录model archmodel archgithub测试网页text encoder 换成DiT结构;decoder 用flow结构,text 到mel的时长对齐,使用MAS,和Glow-TTS的结构很像【encoder从transformer变成了diffusion】
原创
发布博客 2024.04.23 ·
368 阅读 ·
9 点赞 ·
0 评论 ·
1 收藏

文生图 & 文生视频

stable diffusion的输入【step, noisy image,文本特征】,为了加强文本对生成内容的控制,引入classifier free guidance进行控制;有文本控制和没有文本控制的情况下,生成两种噪声,互减之后的部分既是文本引导改变的噪声部分,乘一定的系数对文本引导改变的结果进行加强,再加上没有文本引导部分的噪声,合并成本轮预测的噪声。stable diffusion的推理流程:CLIP模型对文本进行编码,得到文本-图片共享域的embedding;
原创
发布博客 2024.04.12 ·
640 阅读 ·
8 点赞 ·
0 评论 ·
7 收藏

MQ-TTS:A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech

160,发现增大到8。
原创
发布博客 2024.04.10 ·
389 阅读 ·
4 点赞 ·
0 评论 ·
9 收藏
加载更多