2017年04月_智慧医疗

12月 09月 07月 05月 04月 03月 01月

原创 ubantu14.04下安装stunman

STUN服务器，是一种网络通信协议的实现。STUN（Session Traversal Utilities for NAT）是一个网络协议，被设计用来帮助在网络地址转换（NAT）后的设备上的客户端发现其公共IP地址和互联网上的端口号。

2017-04-07 23:42:12 1335

AVSpeech视听语音数据集

AVSpeech 是一个新的、大规模的视听数据集，包括没有干扰的背景噪音的语音视频片段。这些片段的长度为 3-10 秒，在每个片段中，原声带中的听到的声音，属于视频中可看见的唯一在说话的人。该数据集包含大约 4700 小时的视频片段，来自 29 万个 YouTube 视频，涵盖了各种各样的人、语言和面部姿势。

2024-02-06

猫狗二分类数据集，用于计算机视觉分类训练

猫狗二分类数据集，用于计算机视觉分类训练，里面包含两个文件夹，train中包含25000张分类好的猫狗图片，valid中包含12500张未分类的猫狗图片。

2023-08-02

水果照片数据集02，用于水果识别模型的训练

水果照片数据集02，用于水果识别模型的训练，每个文件夹中包含一类水果的照片

2023-08-02

水果照片数据集01，用于水果识别模型的训练

水果照片数据集01，用于水果识别模型的训练，每个文件夹中包含一类水果的照片

2023-08-02

基于bert的韵律预训练模型

基于bert的韵律预训练模型，用于中文语音生成，生成自然韵律的声音，听起来效果更加自然流畅

2023-06-27

Wav2Lip-HD预训练模型第二个包，包含GFPGAN模型等，用于数字人语音驱动面部及图像超分辨率生成

2023-06-20

Wav2Lip-HD预训练模型第一个包，包含人脸检测模型，语音驱动面部模型等

Wav2Lip-HD预训练模型第一个包，包含人脸检测模型，语音驱动面部模型等，用于数字人语音驱动面部及图像超分辨率

2023-06-20

Wav2lip预训练模型，包含人脸检测模型、面部表情生成模型、基于gan的面部表情生成模型、生成判别模型等

Wav2lip预训练模型，包含人脸检测模型、wav2lip生成模型、wav2lip_gan生成模型、wav2lip判别模型等，使用此模型通过音频驱动视频，生成最终的嘴型与语音的匹配

2023-06-16

VITS-fast-fine-tuning训练准备的样例数据，可以快速体验该模型的语音合成效果

VITS-fast-fine-tuning训练准备的样例数据，可以快速体验该模型的语音合成效果。内容包含预训练模型、配置文件、语音素材等。

2023-06-09

vits-chinese模型使用标贝男声数据，经过700K step训练后模型，新speaker可以在此模型上二次训练

vits_chinese模型使用标贝男声数据，经过700K step训练后模型，新speaker可以在此模型上二次训练，达到快速收敛的效果。

2023-06-08

vits训练音频结果展示

2023-05-27

标贝数据集标注数据，用于采用标贝数据进行基础模型训练，内容为10000条标注数据

标贝数据集标注数据，用于采用标贝数据进行基础模型训练，内容为10000条语音标注数据，数据文件对应的地址： https://download.csdn.net/download/lsb2002/87818023 https://download.csdn.net/download/lsb2002/87818053

2023-05-25

标贝男声数据集，用于人工智能语音合成训练，内容为10000条男声音频以及标注

标贝男声数据集，用于人工智能语音合成训练，音频采用频率22050，此数据为第二个分包，总共二个分包。第一个包地址为：https://download.csdn.net/download/lsb2002/87770781 标注数据地址为：https://download.csdn.net/download/lsb2002/87818104

2023-05-25

标贝男声数据集，用于人工智能语音合成训练，内容为10000条带标注的男声数据

标贝男声数据集，用于人工智能语音合成训练，音频采用频率22050，此数据为第一个分包，总共二个分包第一个包地址：https://download.csdn.net/download/lsb2002/87818053 标注数据地址：https://download.csdn.net/download/lsb2002/87818104

2023-05-25