自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

岁月如歌

为天地立心,为生民立命,为往圣继绝学,为万世开太平。

  • 博客(342)
  • 收藏
  • 关注

原创 语音合成相关论文及代码整理

对重要的语音合成论文及代码进行更新和记录(持续更新)一、论文1、tts 前端2、expressive tts3、voice clone/conversion4、vocoder二、代码1、https://github.com/PaddlePaddle/PaddleSpeech完整的 语音识别(流式)、语音合成(流式)、声纹识别、声音分类 的工程库2、..................

2022-05-23 22:34:19 1174

原创 优秀博客集合

一、生活二、编程七月三、深度学习七月四、NLP1、对话:段清华(人工智障工程师)李理的博客2、语音合成、语音识别李理的博客

2020-09-21 13:05:37 768

原创 深度学习论文专栏

深度学习论文专栏以下,建立论文阅读专栏,一是为提高论文阅读能力,二是为保证知识更新,三是为了记录和传播好的论文思想以下仅做粗浅分类,方便查阅一、NLP1、Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention 【https://arxiv.org/pdf/2006.16236.pdf】2020新作待读二、语音1、三、其他1、...

2020-06-30 11:56:03 836

原创 国内外最好的语料库汇总

语料在语言学科研究和深度学习中都至关重要,下面对常用的语料库资源进行总结:部分信息来源于其他博客,但是本文会保持持续更新Open Speech and Language Resourceshttp://www.openslr.org/resources.php更新(2020年6月10):若干开源语音数据库: https://blog.ailemon.me/2018/11/21/free-open-source-chinese-speech-datasets/更新2020/10/23AISHELL-3 高保

2019-07-18 15:25:57 31543 4

原创 pip install basicsr老是报错

【代码】pip install basicsr老是报错。

2024-07-12 11:24:40 94

原创 python一些进阶用法:hook 钩子函数以及Registry机制

本质来讲,这些高级用法都是编程经验中沉淀下来的常用范式,并不违背和创造了函数、类和传参的原理,只是巧妙运用了这些。一句话讲,register机制 和 hook 都是函数/类 调用和传参机制的一种灵活运用,将函数作为传参对象,进行回调和封装,通常扩展了或修改了原始函数的行为。

2024-06-28 11:20:58 145

原创 python 数据、曲线平滑处理——Savitzky-Golay 滤波器

高斯滤波是一种线性平滑滤波,适用于消除高斯噪声,广泛应用于图像处理的减噪过程。通俗的讲,高斯滤波就是对整幅图像进行加权平均的过程,每一个像素点的值,都由其本身和邻域内的其他像素值经过加权平均后得到。高斯滤波的具体操作是:用一个模板(或称卷积、掩模)扫描图像中的每一个像素,用模板确定的邻域内像素的加权平均灰度值去替代模板中心像素点的值。

2024-06-26 19:00:53 376

原创 使用ffmpeg调整视频分辨率/帧率并保持高清晰度

通过ffmpeg -i命令查看视频基本信息通过命令查看,原始视频信息。

2024-06-26 11:12:43 860

原创 Mediapipe框架介绍及示例

推荐阅读:Mediapipe框架介绍及使用说明Mediapipe人脸关键点检测

2024-06-12 16:49:28 270

原创 TensorRT半精度(FP16)相关博客

几篇关于TensorRT fp16和debug的博客,记录一下:半精度(FP16)调试血泪总结ONNX-TensorRT 精度对齐tensorRT相关问题想提速但TensorRT的FP16不得劲?怎么办?在线支招

2024-05-21 15:57:46 252

原创 转:深度学习模型参数量以及FLOPs计算工具

记录一下:深度学习模型参数量以及FLOPs计算工具大模型训练需要花费多长时间:FLOPs的简单计算方法及calflop开源实现

2024-05-21 15:31:44 175

原创 图像中的attention及QKV机制解释

里面的观点,写的很好:Transformer,它最开始提出是针对nlp领域的,在此之前除了seq2seq这种encoder-decoder架构,大家主要还是用的rnn、lstm这种时序网络,像rnn系列网络它是有问题的,首先就是它记忆的长度是有限的,其次是无法并行化计算,也就是必须要先计算xt时刻的数据才能计算时刻xt+1,这就导致效率低下。针对这些问题,Google就提出了。

2024-05-16 01:29:59 503

原创 wavlm预训练模型的使用

【代码】wavlm预训练模型的使用。

2024-05-07 11:35:32 397

原创 diffusion model 简单demo

【代码】diffusion model 简单demo。

2024-04-17 19:20:17 838

原创 解决moviepy保存的视频画质不清晰问题

解决moviepy保存的视频画质不清晰问题

2024-04-10 20:59:08 741

原创 基于minist数据集的gan生成网络的代码实现

【代码】基于minist的gan生成网络的代码实现。

2024-03-29 14:00:05 218

原创 几种常用的用于视频读取、写入和处理的库和函数

在Python中,有几种常用的用于视频读取、写入和处理的库和函数。其中最流行的包括OpenCVMoviePy和imageio。

2024-03-21 19:35:10 426

原创 vqvae博客记录

关于vqvae,两篇不错的博客,简单记录一下

2024-03-08 21:03:20 434

原创 简记:图像融合

几篇图像融合的博客记录一下。

2024-03-07 19:43:03 475

原创 使用Linux命令行上传及下载百度云盘文件(远程服务器大文件传输必备)

使用Linux命令行上传及下载百度云盘文件(远程服务器大文件传输必备)

2024-03-07 19:36:52 3060

原创 如何将图片保存成视频(imageio、opencv和ffmpeg)

测试下来发现,imageio 速度比 cv2 的要慢,所以普通保存推荐 cv2,要gpu加速需要额外配置或者修改

2024-02-29 12:01:55 1610

原创 Gradio入门到进阶教程

推荐两篇博客:Gradio入门教程Gradio入门到进阶全网最详细教程

2024-02-24 19:28:58 504

原创 ffmpeg和opencv一些容易影响图片清晰度的操作

ffmpeg和opencv一些容易影响图片清晰度的操作

2024-01-22 16:56:12 1000

原创 转载:利用Flask实现深度学习模型部署

深度学习模型部署篇——利用Flask实现深度学习模型部署(三)pytorch中文文档-通过带Flask的REST API在Python中部署PyTorch利用flask搭建深度学习服务

2023-11-29 01:26:35 689

原创 flask五小时快速入门资料记录

详细版:简洁版:

2023-11-29 01:23:05 548

原创 安装pytorch3d最简单方法

推荐博客:https://blog.csdn.net/weixin_43357695/article/details/126063091。

2023-11-17 22:11:46 328

原创 FlowNet2 30系显卡 cuda11.1 编译

FlowNet2 30系显卡 cuda11.1 编译:https://blog.csdn.net/qq_24002549/article/details/120114046。

2023-11-17 21:31:47 180

原创 安装pytorch3d最简单方法

记录:https://blog.csdn.net/weixin_43357695/article/details/126063091。

2023-11-13 21:42:49 231

原创 torch DDP多卡训练教程记录

简明教程看这里 -->--》 详细解答了pipeline减少GPU占用看这里 -->--》解答了如何先加载到cpu解决0卡显存占用过多问题DDP模型加载和保存看这里 – >--》解释和解决ddp模型名被更改后如何保存加载的问题多机多卡更多看这里 -->--》有更细致的讲解。

2023-11-10 21:34:46 801

转载 拉普拉斯金字塔融合原理浅析【转载】

拉普拉斯金字塔融合(Laplacian Pyramid Blending)也称为多频带融合(Multi-band Blending),可以看做是对Alpha融合的一种改进,避免出现鬼影(Ghosting)和截断(Seams)现象。

2023-11-03 20:42:53 630

原创 卷积和反卷积的一些计算细节记录

参考:维度计算:参考:

2023-10-15 16:16:49 231

转载 zotero翻译插件PDF Translate下载安装配置

参考:https://blog.csdn.net/qq_43215318/article/details/125853153。通过github地址:https://github.com/windingwind/zotero-pdf-translate。插件地址:https://github.com/windingwind/zotero-pdf-translate。2.在相应路径找到刚刚下载的zotero-pdf-translate.xpi文件。

2023-10-13 11:54:29 4259

原创 youtubu视频下载和yt-dlp 使用教程

yt-dlp

2023-09-01 20:58:37 3118

原创 图像扩增博客记录

缩放、旋转、裁剪、平移、翻转、变形、噪声等,支持图像和图像序列

2023-08-03 02:17:51 726

原创 python mediapipe记录

mediapipe

2023-08-02 14:31:54 186

原创 解决mac关闭VPN之后,浏览器就不能够正常上网了(图解)

mac vpn

2023-07-29 15:33:37 12065 4

原创 ffmpeg常用功能博客导航

ffmpeg常用功能博客导航

2023-07-26 22:53:31 716

原创 使用 ffmpeg 截取视频的某一个时间段内容

使用 -ss 选项指定需要截取的开始时间,结合 -to 或者 -t。

2023-07-17 14:24:25 2466

原创 人脸Landmark提取

那么dlib是如何做到的呢?现在常用的开源landmark检测工具是dlib,其开源模型中的landmark包含68个点,按顺序来说: 0-16是下颌线(红),17-21是右眼眉(橙),22-26是左眼眉(黄),27-35是鼻子(浅绿),36-41是右眼(深绿),42-47是左眼(浅蓝),48-60是嘴外轮廓(深蓝),61-67是嘴内轮廓(紫)。landmark是什么意思呢?就是在脸上绘制的若干标记点,标记点一般画在边、角、轮廓、交叉、等分等关键位置,借助它们就可以描述人脸的形态(shape).

2023-05-23 20:15:20 1066

原创 数字人入门文章速览

语音驱动三维人脸方法OPPO 数字人语音驱动面部技术实践【万字长文】虚拟人漫谈人脸重建速览,从3DMM到表情驱动动画恐怖谷效应:

2023-05-22 17:50:10 538

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除