- 博客(283)
- 资源 (19)
- 收藏
- 关注
原创 conda环境下module ‘numba.types‘ has no attribute ‘Macro‘问题解决
Conda是一个强大的工具,对于管理复杂的Python项目和环境至关重要。它简化了包管理和环境设置,使得Python开发更加容易和高效。通过使用Conda,开发者可以确保他们的项目在不同机器和操作系统上都能以相同的方式运行,大大提高了项目的可移植性和可复现性。
2024-09-23 12:22:28 864
原创 OpenVoiceV2:零样本跨语言语音克隆技术,支持多种风格控制
语音克隆技术近年来取得了显著进展,但现有方法通常存在着局限性,例如无法灵活控制语音风格、需要大量多语言数据进行训练、生成速度慢等等。为了克服这些挑战,MyShell.ai团队推出了全新的语音克隆技术OpenVoiceV2,它能够在无需额外训练的情况下,仅凭少量参考音频,就能够克隆任何人的声音,并支持多种语音风格控制,以及快速高效的跨语言语音生成。
2024-08-30 19:57:11 1606
原创 conda环境下报error: Microsoft Visual C++ 14.0 or greater is required问题解决
Conda是一个强大的工具,对于管理复杂的Python项目和环境至关重要。它简化了包管理和环境设置,使得Python开发更加容易和高效。通过使用Conda,开发者可以确保他们的项目在不同机器和操作系统上都能以相同的方式运行,大大提高了项目的可移植性和可复现性。
2024-08-30 15:55:48 1320
原创 多进程并行处理中FFMpeg子进程挂起导致整个任务阻塞问题解决
在 Python 中,subprocess 模块为程序员提供了与操作系统命令进行交互的桥梁。无论是执行简单的 shell 命令,还是管理复杂的外部进程,subprocess 都能很好地完成任务。通过 subprocess,Python 脚本可以启动新的应用程序,与其输入/输出/错误管道建立连接,并获取其返回值,这对于实现自动化任务和系统集成至关重要。
2024-08-23 18:39:02 1207
原创 centos下ffmpeg版本升级到6.1.1 并添加 libx264库
FFmpeg项目由 Fabrice Bellard在2000年创立。到目前为止,FFmpeg项目的开发者仍然与VLC、MPV、dav1d、x264等多媒体开源项目有着广泛的重叠。Ffmpeg(FastForward Mpeg)是一款遵循GPL的开源软件,在音视频处理方面表现十分优秀,几乎囊括了现存所有的视音频格式的编码,解码、转码、混合、过滤及播放。作为最受欢迎的视频和图像处理软件,它被来自各行各业的不同公司所广泛使用。同时也是一款跨平台的软件,完美兼容Linux、Windows、Mac OSX等平台。
2024-07-09 18:52:38 1479
原创 使用ffmpeg提取视频中的音频并保存为单声道wav
FFmpeg项目由 Fabrice Bellard在2000年创立。到目前为止,FFmpeg项目的开发者仍然与VLC、MPV、dav1d、x264等多媒体开源项目有着广泛的重叠。Ffmpeg(FastForward Mpeg)是一款遵循GPL的开源软件,在音视频处理方面表现十分优秀,几乎囊括了现存所有的视音频格式的编码,解码、转码、混合、过滤及播放。
2024-03-08 17:52:04 2714
原创 AIGC:语音克隆模型Bert-VITS2-2.3部署与实战
本文提出VITS2,一种单阶段的文本到语音模型,通过改进之前工作的几个方面,有效地合成了更自然的语音。本文提出了改进的结构和训练机制,所提出的方法在提高多说话人模型中语音特征的自然度、相似性以及训练和推理效率方面是有效的。证明了所提出方法可以显著减少以前工作中对音素转换的强依赖,允许完全端到端单阶段方法。
2024-03-05 19:59:36 4118 4
原创 使用ffmpeg实现视频片段截取并保持清晰度
Ffmpeg 应该是 FFmpeg 工具集中最核心的利器,支持多种多样的编码器、解码器、封装格式、滤镜功能。FFmpeg框架的基本组成包含AVFormat、AVCodec、AVFilter、AVDevice、AVUtil等模块库
2024-02-23 12:10:32 1939
原创 MiniCPM:揭示端侧大语言模型的无限潜力
MiniCPM 是一系列端侧语言大模型,主体语言模型 MiniCPM-2B 具有 2.4B 的非词嵌入参数量。在综合性榜单上与 Mistral-7B 相近(中文、数学、代码能力更优),整体性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。在当前最接近用户体感的榜单 MTBench 上,MiniCPM-2B 也超越了 Llama2-70B-Chat、Vicuna-33B、Mistral-7B-Instruct-v0.1、Zephyr-7B-alpha 等众多代表性开源大模型。
2024-02-04 14:29:23 2678
原创 清华系2B模型杀出,性能吊打LLaMA-13B
2 月 1 日,面壁智能与清华大学自然语言处理实验室共同开源了系列端侧语言大模型 MiniCPM,主体语言模型 MiniCPM-2B 仅有 24 亿(2.4B)的非词嵌入参数量。在综合性榜单上与 Mistral-7B 相近,在中文、数学、代码能力表现更优,整体性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。
2024-02-04 14:07:30 1769
原创 AI数字人训练数据集汇总
唇读(Lip Reading),也称视觉语音识别(Visual Speech Recognition),通过说话者口型变化信息推断其所说的内容,旨在利用视觉信道信息补充听觉信道信息,在现实生活中有重要应用。例如,应用在医疗领域辅助听力受损的病人提高沟通交流能力,在军事领域提高情报获取和处理能力,在多媒体领域提高人机交互的多样性和鲁棒性等。随着深度学习技术的发展,以及数据集规模的不断完善,基于深度学习的框架方法已经逐渐取代传统方法,成为唇读的主流方法。
2024-02-02 20:15:57 4230
原创 开源而强大的视频下载利器:youtube-dl
youtube-dl 是一款基于 Python 的小型命令行工具,允许从 YouTube、Dailymotion、Google Video、Photobucket、Facebook、Yahoo、Metacafe、Depositfiles、Bilibili 和类似网站下载视频。 它是用 pygtk 编写的,需要 Python 解释器来运行,它不受平台限制,可以在任何 GNU/Linux、Windows 或 macOS 系统上运行。
2024-02-01 19:26:50 1696
原创 中国目前的人工智能在全球处于什么水平
中国目前的人工智能行业虽与发达国家有一定差距,但仍处在世界前列,但随着国家的大力发展,我也相信,中国的人工智能行业会发展越来越好,越来越快!
2024-01-26 16:48:10 2253
原创 Reading Notes:Human-Computer Interaction System: A Survey of Talking-Head Generation
由于人工智能的快速发展,虚拟人被广泛应用于各种行业,包括个人辅助、智能客户服务和在线教育。拟人化的数字人可以快速与人接触,并在人机交互中增强用户体验。因此,我们设计了人机交互系统框架,包括语音识别、文本到语音、对话系统和虚拟人生成。接下来,我们通过虚拟人深度生成框架对Talking-Head Generation视频生成模型进行了分类。同时,我们系统地回顾了过去五年来在有声头部视频生成方面的技术进步和趋势,强调了关键工作并总结了数据集。对于有关于Talking-Head Generation的方法,这是一
2024-01-26 16:12:27 1581
原创 conda环境下使用youtube_dl模块下载youtube视频异常解决方法
Conda是一个强大的工具,对于管理复杂的Python项目和环境至关重要。它简化了包管理和环境设置,使得Python开发更加容易和高效。通过使用Conda,开发者可以确保他们的项目在不同机器和操作系统上都能以相同的方式运行,大大提高了项目的可移植性和可复现性。
2024-01-25 20:22:30 2065
原创 使用自有数据集微调ChatGLM2-6B
P-Tuning v2的原理是通过对已训练好的大型语言模型进行参数剪枝,得到一个更加小巧、效率更高的轻量级模型。具体地,P-Tuning v2首先使用一种自适应的剪枝策略,对大型语言模型中的参数进行裁剪,去除其中不必要的冗余参数。然后,对于被剪枝的参数,P-Tuning v2使用了一种特殊的压缩方法,能够更加有效地压缩参数大小,并显著减少模型微调的总参数量。
2024-01-25 20:15:32 4192 1
原创 人工智能之数据科学库sklearn
sklearn,全称scikit-learn,是python中的机器学习库,建立在numpy、scipy、matplotlib等数据科学包的基础之上,涵盖了机器学习中的样例数据、数据预处理、模型验证、特征选择、分类、回归、聚类、降维等几乎所有环节,功能十分强大
2024-01-24 18:15:58 2150
原创 VAD语音分割算法详解
Voice Activity Detection (VAD) 在语音信号处理中,例如语音增强,语音识别等领域有着非常重要的作用。它的作用是从一段语音(纯净或带噪)信号中标识出语音片段与非语音片段。VAD系统通常包括两个部分,特征提取和语音/非语音判决;
2024-01-24 11:58:01 5953 1
原创 conda环境下OSError: We couldn‘t connect to ‘https://huggingface.co‘问题解决
Conda是一个强大的工具,对于管理复杂的Python项目和环境至关重要。它简化了包管理和环境设置,使得Python开发更加容易和高效。通过使用Conda,开发者可以确保他们的项目在不同机器和操作系统上都能以相同的方式运行,大大提高了项目的可移植性和可复现性。
2024-01-23 14:57:11 1920
原创 机器学习神器:Sklearn详解
什么是机器学习?字面上来讲就是 (人用) 计算机来学习。谈起机器学习就一定要提起汤姆米切尔 (Tom M.Mitchell),就像谈起音乐就会提起贝多芬,谈起篮球就会提起迈克尔乔丹,谈起电影就会提起莱昂纳多迪卡普里奥。
2024-01-23 14:53:24 3503
原创 基于扩散模型语音驱动人物头像说话模型:DreamTalk
DreamTalk:由清华大学、阿里巴巴和华中科大共同开发的一个基于扩散模型让人物头像说话的框架。 能够根据音频让人物头像照片说话、唱歌并保持嘴唇的同步和模仿表情变化。
2024-01-22 19:05:57 2659
原创 使用ffmpeg调整视频中音频采样率及声道
Ffmpeg 应该是 FFmpeg 工具集中最核心的利器,支持多种多样的编码器、解码器、封装格式、滤镜功能。FFmpeg框架的基本组成包含AVFormat、AVCodec、AVFilter、AVDevice、AVUtil等模块库
2024-01-22 17:35:58 2349
原创 视频处理关键知识
I帧或关键帧或帧内帧(I-frame or Key-Frame or Intra-frame)仅由帧内预测的宏块组成。I帧中的每个宏块只能在同一帧内匹配其他宏块,这意味着,它只能利用帧内“空间冗余”来进行压缩。空间冗余是一个术语,用来指单个帧的像素之间的相似性。I帧在不同的视频编解码器中以不同的形式出现,如IDR、CRA或者BLA。这些不同类型的I帧本质相同:都不存在时域预测。
2024-01-19 20:25:04 1668
原创 conda环境下wget: command not found解决方案
Conda是一个强大的工具,对于管理复杂的Python项目和环境至关重要。它简化了包管理和环境设置,使得Python开发更加容易和高效。通过使用Conda,开发者可以确保他们的项目在不同机器和操作系统上都能以相同的方式运行,大大提高了项目的可移植性和可复现性。
2024-01-19 11:08:45 1989
原创 conda环境下module ‘charset_normalizer‘ has no attribute ‘md__mypyc‘解决方法
charset-normalizer 是一个Python库,旨在帮助解决文本字符集编码的问题。它提供了对不同字符集编码的检测和规范化功能,使得在处理来自未知字符集编码的文本时更加方便。
2024-01-17 15:50:20 11978 1
原创 音视频同步
声卡和显卡均是以一帧数据来作为播放单位,如果单纯依赖帧率及采样率来进行播放,在理想条件下,应该是同步的,不会出现偏差。但实际情况,往往不同步。
2024-01-17 15:49:50 1372
原创 conda环境下FutureWarning: Pass sr=16000, n_fft=800 as keyword args问题解决
Conda是一个强大的工具,对于管理复杂的Python项目和环境至关重要。它简化了包管理和环境设置,使得Python开发更加容易和高效。通过使用Conda,开发者可以确保他们的项目在不同机器和操作系统上都能以相同的方式运行,大大提高了项目的可移植性和可复现性。
2024-01-16 18:52:16 1376
原创 Python音频处理利器:pydub详解
pydub是Python的一个音频处理库,可以处理各种音频格式,如mp3、wav、flv等等。它是一个轻量级、快速且易于使用的库。silence库是pydub的一个扩展库,可以在音频文件中根据静默部分进行分割,非常方便。
2024-01-16 18:38:22 5507
原创 使用ffmpeg进行视频截取
ffmpeg在使用-c:v copy对原视频码流进行直接截取时,并不是按照指定时间截取的,而是从指定时间附近的I帧开始截取和终止。
2024-01-15 17:46:15 2281
原创 conda环境下No module named ‘pytorch_lightning‘问题解决
Conda是一个强大的工具,对于管理复杂的Python项目和环境至关重要。它简化了包管理和环境设置,使得Python开发更加容易和高效。通过使用Conda,开发者可以确保他们的项目在不同机器和操作系统上都能以相同的方式运行,大大提高了项目的可移植性和可复现性。
2024-01-15 11:06:55 1900
原创 pytorch中的DataLoader
通常在训练时我们会将数据集分成若干小的、随机的批(batch),这个操作当然可以手动操作,但是pytorch里面为我们提供了API让我们方便地从dataset中获得batch,DataLoader就是来解决这个问题的。
2024-01-14 23:42:17 1422
原创 WeNet2.0:提高端到端ASR的生产力
全新的 WeNet 2.0 在各种语料库上比原来的 WeNet 实现了高达 10% 的相对识别性能提升,并提供了几个面向生产的重要特性。
2024-01-14 23:24:41 1679
原创 PYthon正则表达式
正则表达式是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式,该模式描述在搜索文本时要匹配的一个或多个字符串。
2024-01-13 22:58:08 1016
原创 Whisper: openAI开源准确率最高的通用语言语音识别
我们研究了仅通过预测大量互联网音频录音的语音处理系统的能力。当扩大到68万小时的多语言和多任务监督时,生成的模型可以很好地泛化到标准基准,而且通常可以与之前的全监督结果相竞争,但在zero-shot识别设置中,无需进行任何微调。与人类相比,这些模型接近他们的准确性和鲁棒性。我们正在发布模型和推理代码,以便为进一步的鲁棒性语音处理工作提供基础。
2024-01-13 09:56:16 2134
原创 wav2lip中文语音驱动人脸训练
2020年,来自印度海德拉巴大学和英国巴斯大学的团队,在ACM MM2020发表了的一篇论文《A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild 》,在文章中,他们提出一个叫做Wav2Lip的AI模型,只需要一段人物视频和一段目标语音,就能够让音频和视频合二为一,人物嘴型与音频完全匹配。
2024-01-12 00:35:36 6337 2
原创 conda环境下cannot write keep file问题解决
Conda是一个强大的工具,对于管理复杂的Python项目和环境至关重要。它简化了包管理和环境设置,使得Python开发更加容易和高效。通过使用Conda,开发者可以确保他们的项目在不同机器和操作系统上都能以相同的方式运行,大大提高了项目的可移植性和可复现性。
2024-01-12 00:35:03 1195
原创 高效底座模型LLaMA
大型语言模型(Large Languages Models,LLMs)通过大规模文本数据的训练,展示了其根据文本指令或少量样本完成新任务的能力。这种少数示例的性质首次在规模足够大的模型中出现,导致了一系列聚焦于进一步扩大这些模型的工作。这些努力都是基于一个假设:模型参数越多,性能越好。然而,Hoffmann等人(2022)的近期研究显示,在给定的计算预算下,最佳的性能并非由最大的模型实现,而是由训练数据更多的较小模型实现。
2024-01-11 12:01:17 1656
原创 使用ffmpeg实现音频静音修剪
Ffmpeg 应该是 FFmpeg 工具集中最核心的利器,支持多种多样的编码器、解码器、封装格式、滤镜功能。FFmpeg框架的基本组成包含AVFormat、AVCodec、AVFilter、AVDevice、AVUtil等模块库,结构图如下:
2024-01-11 11:50:33 2584
原创 centos下升级git版本
Git 和其它版本控制系统(包括 Subversion 和近似工具)的主要差别在于 Git 对待数据的方式。 从概念上来说,其它大部分系统以文件变更列表的方式存储信息,这类系统(CVS、Subversion、Perforce 等等) 将它们存储的信息看作是一组基本文件和每个文件随时间逐步累积的差异
2024-01-10 13:01:06 2960
原创 conda环境下Torch not compiled with CUDA enabled解决方法
Conda是一个强大的工具,对于管理复杂的Python项目和环境至关重要。它简化了包管理和环境设置,使得Python开发更加容易和高效。通过使用Conda,开发者可以确保他们的项目在不同机器和操作系统上都能以相同的方式运行,大大提高了项目的可移植性和可复现性。
2024-01-10 09:50:02 1805
AVSpeech视听语音数据集
2024-02-06
猫狗二分类数据集,用于计算机视觉分类训练
2023-08-02
Wav2Lip-HD预训练模型第二个包,包含GFPGAN模型等,用于数字人语音驱动面部及图像超分辨率生成
2023-06-20
Wav2Lip-HD预训练模型第一个包,包含人脸检测模型,语音驱动面部模型等
2023-06-20
Wav2lip预训练模型,包含人脸检测模型、面部表情生成模型、基于gan的面部表情生成模型、生成判别模型等
2023-06-16
VITS-fast-fine-tuning训练准备的样例数据,可以快速体验该模型的语音合成效果
2023-06-09
vits-chinese模型使用标贝男声数据,经过700K step训练后模型,新speaker可以在此模型上二次训练
2023-06-08
标贝数据集标注数据,用于采用标贝数据进行基础模型训练,内容为10000条标注数据
2023-05-25
标贝男声数据集,用于人工智能语音合成训练,内容为10000条男声音频以及标注
2023-05-25
标贝男声数据集,用于人工智能语音合成训练,内容为10000条带标注的男声数据
2023-05-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人