- 博客(5)
- 收藏
- 关注
原创 中文语音生成模型vits-chinese运行实践
实际运行过程中,训练4个来回后,输出的语音已经很接近Arik的音色,其收敛效果比前面介绍的so-vits-svc模型好很多,该模型可。这里是直接使用标贝数据集作为Arik的语音进行训练,当然也可以基于标贝数据集的label,自行录制语音进行替换,制作自己的数据集。可直接在cpu上运行,包含依赖模型,底模文件,标贝数据集和修改后文件,可节省不少调试时间。2. 将音频中的中文拼音分开为声母和韵母,然后将其数字化,作为vits网络的输入x。speaker id作为vits网络的输入sid,这个和原网络一致。
2023-12-22 17:25:04 1000 1
原创 一文了解DINet模型结构和运行原理
实际推理过程中,一般是输入一段视频+驱动音频,视频拆帧后为一系列图片,驱动音频经过上面的处理后和视频帧的时序对齐,窗口大小为5帧,窗口每次向前前进一帧,首先计算窗口内中间帧的脸部切取数据作为DINet的一个输入,然后计算窗口内5帧的音频数据作为DINet的另一个输入,最后一个输入5张ref脸部切取数据并不需要和驱动语音的5帧数据时序对齐,而是随机在整个视频中选择了5帧。这里补充说明下OpenFace工具,它可以将一段视频逐帧识别脸部关键点坐标68个并输出为csv文件,文件中的每一行为一帧的数据。
2023-11-10 08:48:28 1094 3
原创 OpenFace在windows上如何安装
OpenFace工具,它可以将一段视频逐帧识别脸部关键点坐标68个并输出为csv文件,文件中的每一行为一帧的数据。配置一下(注意勾选的Record),就可以使用了。打开OpenFaceOffline.exe。
2023-11-09 08:40:51 316 1
原创 深度学习之物体检测算法yolov3
yolov3 模型拥有三层输出,分别对应大中小三种物体大小的目标检测,将实际目标的中心坐标和目标的宽和高映射到每层输出的网格上,使得yolov3的输出具备预测图片上各种大小,各个位置的目标物体。以y1为例,19*19为特征图大小,在三层输出中最小,对应anchors为[116,90, 156,198, 373,326],用来检测大物体。如何将(x, y, w, h)映射到真正的预测框(px, py, pw, ph),并和预测图片的标签数据计算损失函数,将在下一节详细给出。
2022-10-22 12:10:40 1443
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人