自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

AI印象录

介绍AI技术与云服务技术

  • 博客(5)
  • 收藏
  • 关注

原创 自动挂号工具

依次安装PyCharm,python,pip,安装步骤百度就行。

2024-07-03 09:17:22 425

原创 中文语音生成模型vits-chinese运行实践

实际运行过程中,训练4个来回后,输出的语音已经很接近Arik的音色,其收敛效果比前面介绍的so-vits-svc模型好很多,该模型可。这里是直接使用标贝数据集作为Arik的语音进行训练,当然也可以基于标贝数据集的label,自行录制语音进行替换,制作自己的数据集。可直接在cpu上运行,包含依赖模型,底模文件,标贝数据集和修改后文件,可节省不少调试时间。2. 将音频中的中文拼音分开为声母和韵母,然后将其数字化,作为vits网络的输入x。speaker id作为vits网络的输入sid,这个和原网络一致。

2023-12-22 17:25:04 1000 1

原创 一文了解DINet模型结构和运行原理

实际推理过程中,一般是输入一段视频+驱动音频,视频拆帧后为一系列图片,驱动音频经过上面的处理后和视频帧的时序对齐,窗口大小为5帧,窗口每次向前前进一帧,首先计算窗口内中间帧的脸部切取数据作为DINet的一个输入,然后计算窗口内5帧的音频数据作为DINet的另一个输入,最后一个输入5张ref脸部切取数据并不需要和驱动语音的5帧数据时序对齐,而是随机在整个视频中选择了5帧。这里补充说明下OpenFace工具,它可以将一段视频逐帧识别脸部关键点坐标68个并输出为csv文件,文件中的每一行为一帧的数据。

2023-11-10 08:48:28 1094 3

原创 OpenFace在windows上如何安装

OpenFace工具,它可以将一段视频逐帧识别脸部关键点坐标68个并输出为csv文件,文件中的每一行为一帧的数据。配置一下(注意勾选的Record),就可以使用了。打开OpenFaceOffline.exe。

2023-11-09 08:40:51 316 1

原创 深度学习之物体检测算法yolov3

yolov3 模型拥有三层输出,分别对应大中小三种物体大小的目标检测,将实际目标的中心坐标和目标的宽和高映射到每层输出的网格上,使得yolov3的输出具备预测图片上各种大小,各个位置的目标物体。以y1为例,19*19为特征图大小,在三层输出中最小,对应anchors为[116,90, 156,198, 373,326],用来检测大物体。如何将(x, y, w, h)映射到真正的预测框(px, py, pw, ph),并和预测图片的标签数据计算损失函数,将在下一节详细给出。

2022-10-22 12:10:40 1443

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除