自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

岁月如歌

为天地立心,为生民立命,为往圣继绝学,为万世开太平。

  • 博客(333)
  • 收藏
  • 关注

原创 语音合成相关论文及代码整理

对重要的语音合成论文及代码进行更新和记录(持续更新)一、论文1、tts 前端2、expressive tts3、voice clone/conversion4、vocoder二、代码1、https://github.com/PaddlePaddle/PaddleSpeech完整的 语音识别(流式)、语音合成(流式)、声纹识别、声音分类 的工程库2、..................

2022-05-23 22:34:19 1085

原创 优秀博客集合

一、生活二、编程七月三、深度学习七月四、NLP1、对话:段清华(人工智障工程师)李理的博客2、语音合成、语音识别李理的博客

2020-09-21 13:05:37 707

原创 深度学习论文专栏

深度学习论文专栏以下,建立论文阅读专栏,一是为提高论文阅读能力,二是为保证知识更新,三是为了记录和传播好的论文思想以下仅做粗浅分类,方便查阅一、NLP1、Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention 【https://arxiv.org/pdf/2006.16236.pdf】2020新作待读二、语音1、三、其他1、...

2020-06-30 11:56:03 781

原创 国内外最好的语料库汇总

今天的主题是语料库包括语料库SSCI期刊访谈,语料库(翻译学)研修,语料库工具、网站集锦。欢迎关注上海语言学通讯国内外语料库汇总语料是翻译和做语言研究的基础,如何收集语料在整个过程中就显得十分重要,国内外有哪些了网站可供我们参考收藏呢?国外语料库 ❀❀❀BBC语料库:http://bcc.blcu.edu.cn/BNC——英国国家语料库(British National Corpus):......

2019-07-18 15:25:57 30757 4

原创 diffusion model 简单demo

【代码】diffusion model 简单demo。

2024-04-17 19:20:17 311

原创 解决moviepy保存的视频画质不清晰问题

解决moviepy保存的视频画质不清晰问题

2024-04-10 20:59:08 504

原创 基于minist数据集的gan生成网络的代码实现

【代码】基于minist的gan生成网络的代码实现。

2024-03-29 14:00:05 91

原创 几种常用的用于视频读取、写入和处理的库和函数

在Python中,有几种常用的用于视频读取、写入和处理的库和函数。其中最流行的包括OpenCVMoviePy和imageio。

2024-03-21 19:35:10 310

原创 vqvae博客记录

关于vqvae,两篇不错的博客,简单记录一下

2024-03-08 21:03:20 351

原创 简记:图像融合

几篇图像融合的博客记录一下。

2024-03-07 19:43:03 393

原创 使用Linux命令行上传及下载百度云盘文件(远程服务器大文件传输必备)

使用Linux命令行上传及下载百度云盘文件(远程服务器大文件传输必备)

2024-03-07 19:36:52 814

原创 如何将图片保存成视频(imageio、opencv和ffmpeg)

测试下来发现,imageio 速度比 cv2 的要慢,所以普通保存推荐 cv2,要gpu加速需要额外配置或者修改

2024-02-29 12:01:55 734

原创 Gradio入门到进阶教程

推荐两篇博客:Gradio入门教程Gradio入门到进阶全网最详细教程

2024-02-24 19:28:58 400

原创 ffmpeg和opencv一些容易影响图片清晰度的操作

ffmpeg和opencv一些容易影响图片清晰度的操作

2024-01-22 16:56:12 753

原创 转载:利用Flask实现深度学习模型部署

深度学习模型部署篇——利用Flask实现深度学习模型部署(三)pytorch中文文档-通过带Flask的REST API在Python中部署PyTorch利用flask搭建深度学习服务

2023-11-29 01:26:35 503

原创 flask五小时快速入门资料记录

详细版:简洁版:

2023-11-29 01:23:05 478

原创 安装pytorch3d最简单方法

推荐博客:https://blog.csdn.net/weixin_43357695/article/details/126063091。

2023-11-17 22:11:46 229

原创 FlowNet2 30系显卡 cuda11.1 编译

FlowNet2 30系显卡 cuda11.1 编译:https://blog.csdn.net/qq_24002549/article/details/120114046。

2023-11-17 21:31:47 113

原创 安装pytorch3d最简单方法

记录:https://blog.csdn.net/weixin_43357695/article/details/126063091。

2023-11-13 21:42:49 113

原创 torch DDP多卡训练教程记录

简明教程看这里 -->--》 详细解答了pipeline减少GPU占用看这里 -->--》解答了如何先加载到cpu解决0卡显存占用过多问题DDP模型加载和保存看这里 – >--》解释和解决ddp模型名被更改后如何保存加载的问题多机多卡更多看这里 -->--》有更细致的讲解。

2023-11-10 21:34:46 377

转载 拉普拉斯金字塔融合原理浅析【转载】

拉普拉斯金字塔融合(Laplacian Pyramid Blending)也称为多频带融合(Multi-band Blending),可以看做是对Alpha融合的一种改进,避免出现鬼影(Ghosting)和截断(Seams)现象。

2023-11-03 20:42:53 285

原创 卷积和反卷积的一些计算细节记录

参考:维度计算:参考:

2023-10-15 16:16:49 151

转载 zotero翻译插件PDF Translate下载安装配置

参考:https://blog.csdn.net/qq_43215318/article/details/125853153。通过github地址:https://github.com/windingwind/zotero-pdf-translate。插件地址:https://github.com/windingwind/zotero-pdf-translate。2.在相应路径找到刚刚下载的zotero-pdf-translate.xpi文件。

2023-10-13 11:54:29 2684

原创 youtubu视频下载和yt-dlp 使用教程

yt-dlp

2023-09-01 20:58:37 2552

原创 图像扩增博客记录

缩放、旋转、裁剪、平移、翻转、变形、噪声等,支持图像和图像序列

2023-08-03 02:17:51 689

原创 python mediapipe记录

mediapipe

2023-08-02 14:31:54 153

原创 解决mac关闭VPN之后,浏览器就不能够正常上网了(图解)

mac vpn

2023-07-29 15:33:37 7840 4

原创 ffmpeg常用功能博客导航

ffmpeg常用功能博客导航

2023-07-26 22:53:31 671

原创 使用 ffmpeg 截取视频的某一个时间段内容

使用 -ss 选项指定需要截取的开始时间,结合 -to 或者 -t。

2023-07-17 14:24:25 1885

原创 人脸Landmark提取

那么dlib是如何做到的呢?现在常用的开源landmark检测工具是dlib,其开源模型中的landmark包含68个点,按顺序来说: 0-16是下颌线(红),17-21是右眼眉(橙),22-26是左眼眉(黄),27-35是鼻子(浅绿),36-41是右眼(深绿),42-47是左眼(浅蓝),48-60是嘴外轮廓(深蓝),61-67是嘴内轮廓(紫)。landmark是什么意思呢?就是在脸上绘制的若干标记点,标记点一般画在边、角、轮廓、交叉、等分等关键位置,借助它们就可以描述人脸的形态(shape).

2023-05-23 20:15:20 822

原创 数字人入门文章速览

语音驱动三维人脸方法OPPO 数字人语音驱动面部技术实践【万字长文】虚拟人漫谈人脸重建速览,从3DMM到表情驱动动画恐怖谷效应:

2023-05-22 17:50:10 468

原创 计算机论文写作入门

顶级会议一般是,在业界(本领域本方向)受到广泛的承认,影响力较大的会议。一方面一般顶级专家、学者都倾向于将paper投到这些会议;另一方面这些会议的论文代表了该领域的目前很优秀、有重大意义的进展。"顶级会议"的投稿竞争压力一般都很大,属于在经典paper中选精英那种。每个国家地区或者每个高校机构对顶级会议都有自己的标准哇,比如CCF这种。一般CCF中的A类会议,可以算作项会。注:CCF(中国计算机学会)是以A、B、C类划分(A最好);而中科院是以一、二、三区划分(一最好,以影响因子来定)。

2023-05-19 13:45:16 509

转载 语音加混响

参考:https://blog.csdn.net/qq_42233059/article/details/126444994。

2023-04-24 16:29:48 205

原创 语音常用加噪算法和数据集

音频加白噪-Python+librosa实现:python对语音文件加入高斯白噪声(含公式推导)数据扩充(音频)方法总结:https://blog.csdn.net/weixin_49747246/article/details/112536934

2023-04-14 01:54:16 240

原创 语音增强和去噪算法

博客可以看这个,很全:开源代码,参考:

2023-04-13 23:34:47 422

原创 语音伪造检测论文

语音伪造检测论文

2023-04-05 18:24:44 1117 1

原创 通过命令行从 Google Drive下载数据

其中这个就是对应文件在服务器上的唯一标识符。其中的为,文件名可以。

2023-03-31 13:35:51 1273

原创 Linux下用sox修改wav文件的采样率

2.将当前文件夹下的wav文件批量修改为16000HZ。1,将2.wav文件的采样率修改为16000HZ。

2023-03-31 10:57:01 554

原创 流式语音合成原理及服务部署

流式语音合成原理及服务部署PaddleSpeech流式语音合成在Jetson等边缘设备cpu上流畅播放FastAPI websocket 流式语音识别服务【PaddleSpeech】语音合成-onnx模型

2023-03-14 21:17:39 372

原创 PyTorch中的masked_select、masked_fill_()、 masked_fill()的区别

PyTorch中的masked_select、masked_fill_()、 masked_fill()的区别

2023-02-15 10:58:06 1751

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除