- 博客(333)
- 收藏
- 关注
原创 语音合成相关论文及代码整理
对重要的语音合成论文及代码进行更新和记录(持续更新)一、论文1、tts 前端2、expressive tts3、voice clone/conversion4、vocoder二、代码1、https://github.com/PaddlePaddle/PaddleSpeech完整的 语音识别(流式)、语音合成(流式)、声纹识别、声音分类 的工程库2、..................
2022-05-23 22:34:19 1085
原创 深度学习论文专栏
深度学习论文专栏以下,建立论文阅读专栏,一是为提高论文阅读能力,二是为保证知识更新,三是为了记录和传播好的论文思想以下仅做粗浅分类,方便查阅一、NLP1、Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention 【https://arxiv.org/pdf/2006.16236.pdf】2020新作待读二、语音1、三、其他1、...
2020-06-30 11:56:03 781
原创 国内外最好的语料库汇总
今天的主题是语料库包括语料库SSCI期刊访谈,语料库(翻译学)研修,语料库工具、网站集锦。欢迎关注上海语言学通讯国内外语料库汇总语料是翻译和做语言研究的基础,如何收集语料在整个过程中就显得十分重要,国内外有哪些了网站可供我们参考收藏呢?国外语料库 ❀❀❀BBC语料库:http://bcc.blcu.edu.cn/BNC——英国国家语料库(British National Corpus):......
2019-07-18 15:25:57 30757 4
原创 几种常用的用于视频读取、写入和处理的库和函数
在Python中,有几种常用的用于视频读取、写入和处理的库和函数。其中最流行的包括OpenCVMoviePy和imageio。
2024-03-21 19:35:10 310
原创 如何将图片保存成视频(imageio、opencv和ffmpeg)
测试下来发现,imageio 速度比 cv2 的要慢,所以普通保存推荐 cv2,要gpu加速需要额外配置或者修改
2024-02-29 12:01:55 734
原创 转载:利用Flask实现深度学习模型部署
深度学习模型部署篇——利用Flask实现深度学习模型部署(三)pytorch中文文档-通过带Flask的REST API在Python中部署PyTorch利用flask搭建深度学习服务
2023-11-29 01:26:35 503
原创 安装pytorch3d最简单方法
推荐博客:https://blog.csdn.net/weixin_43357695/article/details/126063091。
2023-11-17 22:11:46 229
原创 FlowNet2 30系显卡 cuda11.1 编译
FlowNet2 30系显卡 cuda11.1 编译:https://blog.csdn.net/qq_24002549/article/details/120114046。
2023-11-17 21:31:47 113
原创 安装pytorch3d最简单方法
记录:https://blog.csdn.net/weixin_43357695/article/details/126063091。
2023-11-13 21:42:49 113
原创 torch DDP多卡训练教程记录
简明教程看这里 -->--》 详细解答了pipeline减少GPU占用看这里 -->--》解答了如何先加载到cpu解决0卡显存占用过多问题DDP模型加载和保存看这里 – >--》解释和解决ddp模型名被更改后如何保存加载的问题多机多卡更多看这里 -->--》有更细致的讲解。
2023-11-10 21:34:46 377
转载 拉普拉斯金字塔融合原理浅析【转载】
拉普拉斯金字塔融合(Laplacian Pyramid Blending)也称为多频带融合(Multi-band Blending),可以看做是对Alpha融合的一种改进,避免出现鬼影(Ghosting)和截断(Seams)现象。
2023-11-03 20:42:53 285
转载 zotero翻译插件PDF Translate下载安装配置
参考:https://blog.csdn.net/qq_43215318/article/details/125853153。通过github地址:https://github.com/windingwind/zotero-pdf-translate。插件地址:https://github.com/windingwind/zotero-pdf-translate。2.在相应路径找到刚刚下载的zotero-pdf-translate.xpi文件。
2023-10-13 11:54:29 2684
原创 人脸Landmark提取
那么dlib是如何做到的呢?现在常用的开源landmark检测工具是dlib,其开源模型中的landmark包含68个点,按顺序来说: 0-16是下颌线(红),17-21是右眼眉(橙),22-26是左眼眉(黄),27-35是鼻子(浅绿),36-41是右眼(深绿),42-47是左眼(浅蓝),48-60是嘴外轮廓(深蓝),61-67是嘴内轮廓(紫)。landmark是什么意思呢?就是在脸上绘制的若干标记点,标记点一般画在边、角、轮廓、交叉、等分等关键位置,借助它们就可以描述人脸的形态(shape).
2023-05-23 20:15:20 822
原创 数字人入门文章速览
语音驱动三维人脸方法OPPO 数字人语音驱动面部技术实践【万字长文】虚拟人漫谈人脸重建速览,从3DMM到表情驱动动画恐怖谷效应:
2023-05-22 17:50:10 468
原创 计算机论文写作入门
顶级会议一般是,在业界(本领域本方向)受到广泛的承认,影响力较大的会议。一方面一般顶级专家、学者都倾向于将paper投到这些会议;另一方面这些会议的论文代表了该领域的目前很优秀、有重大意义的进展。"顶级会议"的投稿竞争压力一般都很大,属于在经典paper中选精英那种。每个国家地区或者每个高校机构对顶级会议都有自己的标准哇,比如CCF这种。一般CCF中的A类会议,可以算作项会。注:CCF(中国计算机学会)是以A、B、C类划分(A最好);而中科院是以一、二、三区划分(一最好,以影响因子来定)。
2023-05-19 13:45:16 509
原创 语音常用加噪算法和数据集
音频加白噪-Python+librosa实现:python对语音文件加入高斯白噪声(含公式推导)数据扩充(音频)方法总结:https://blog.csdn.net/weixin_49747246/article/details/112536934
2023-04-14 01:54:16 240
原创 Linux下用sox修改wav文件的采样率
2.将当前文件夹下的wav文件批量修改为16000HZ。1,将2.wav文件的采样率修改为16000HZ。
2023-03-31 10:57:01 554
原创 流式语音合成原理及服务部署
流式语音合成原理及服务部署PaddleSpeech流式语音合成在Jetson等边缘设备cpu上流畅播放FastAPI websocket 流式语音识别服务【PaddleSpeech】语音合成-onnx模型
2023-03-14 21:17:39 372
原创 PyTorch中的masked_select、masked_fill_()、 masked_fill()的区别
PyTorch中的masked_select、masked_fill_()、 masked_fill()的区别
2023-02-15 10:58:06 1751
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人