自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(121)
  • 收藏
  • 关注

原创 AISHELL-2 中文语音数据库

AISHELL-1 is by far the largest open-source speech corpus available for Mandarin speech recognition research. It was released with a baseline system containing solid training and testing pipelines for Mandarin ASR. In AISHELL-2, 1000 hours of cle

2022-03-09 16:41:03 6563

原创 闭源赶超GPT-4 Turbo、开源击败Llama-3-70B,歪果仁:这中国大模型真香

以 Qwen1.5-72B 为例,这个模型不仅登顶过 HuggingFace 开源大模型排行榜、OpenCompass 开源基座大模型排行榜,而且在 MT-Bench 和 Alpaca-Eval v2 评测中也表现不俗,超过 Claude-2.1、GPT-3.5-Turbo-0613、Mixtral-8x7b-I nstruct 等模型。其实,这两者是相辅相成的。我们看到,无论是在开源还是闭源的竞技场上,开发者、企业用户都有很多的模型可以选择,因此,即使是做开源,也要开源最强的模型才有人用。

2024-05-13 14:47:20 524

原创 美国空军高调展示首个AI战斗机!部长亲自试驾全程未干预,10万行代码试飞21次

美军战斗机,能由AI完成自主空战了!最近,美国空军部长Kendall亲自试驾了国防部正在研制的X-62A AI飞机。1小时的飞行过程中,Kendall全程未干预,所有动作都由AI自主完成。最近,军事圈被这个消息刷屏了:美军的战斗机,已经能由AI完成全自动空战了。是的,就在最近,美军的AI战斗机首次公开,揭开了神秘面纱。这架战斗机的全名,是可变稳定性飞行模拟器测试飞机(VISTA),由美空军部长亲自搭乘,模拟了一对一的空战。

2024-05-13 13:53:03 506

原创 苹果AI终于来了!从2.7到30亿四款大模型代码全开源,AI技术持续“狂飙”|钛媒体AGI

还使用了与Meta的Llama相同的分词器,以确保实验的一致性。苹果在论文中还表示,与以往只提供模型权重和推理代码并在私有数据集上进行预训练的做法不同,苹果发布的版本包含了在公开数据集上训练和评估语言模型的完整框架,包括训练日志、多个检查点和预训练配置。虽然最小的参数只有2.7亿,但苹果使用了包括RefinedWeb、去重的PILE、RedPajama的子集和Dolma v1.6的子集在内的公共数据集,一共约1.8万亿tokens数据进行了预训练,这也是其能以小参数表现出超强性能的主要原因之一。

2024-05-08 14:27:41 820

原创 迈向语音大模型的平权之路

什么样的事情最有价值?。把 1B 级别的大模型优化到和 200M级别模型相同水平的 RTF 同时 WER 维持代差,难道不是一件该令人亢奋的事情吗?在两个月前的年度总结中,WeNet 社区已经开始向着更“大”更“强”迈进,去全面拥抱语音大模型的无限未来。然而,横在语音大模型面前的还有两座必须翻越的山峰:和。经过 2023 年下半年的努力,WeNet 已经翻越了第一座山峰,达成了。

2024-05-07 14:53:51 801 1

原创 Open-Sora:开源版的Sora

本项目希望通过开源社区的力量复现Sora,由北大-兔展AIGC联合实验室共同发起,当前我们资源有限仅搭建了基础架构,无法进行完整训练,希望通过开源社区逐步增加模块并筹集资源进行训练,当前版本离目标差距巨大,仍需持续完善和快速迭代,欢迎Pull request!!!

2024-04-24 11:05:01 575

原创 谷歌发布基于声学建模的无限虚拟房间增强现实鲁棒语音识别技术

在声学建模过程中,我们假设麦克风的指向性可以增强模拟的冲击响应(IRs)的真实感,因为麦克风指向性是录制IRs时关键的声学特征。正如我们所假设的那样,我们得出了以下结论(见下文),即通过使模拟IRs更接近于录制IRs行为,并提高模拟数据集质量,从而进一步提升整体模型性能,而无需进行昂贵且耗时的录制过程。同时,S[4000]+M[720]也优于在S[8000](包含8000个模拟)上进行训练的模型,这说明小子集中所提取出来的记录IRs数量减少了所需的模拟IRs数量(8000→4000 )。

2024-04-24 10:58:51 1029 2

原创 在树莓派上运行语音识别和LLama-2 GPT!

目前,绝大多数大模型运行在云端服务器,终端设备通过调用api的方式获得回复。但这种方式有几个缺点:首先,云api要求设备始终在线,这对于部分需要在无互联网接入的情况运行的设备很不友好;其次,云api的调用需要消耗流量费,用户可能不想支付这部分费用;最后,如果几年后,项目组被关停,API接口被关闭,那么用户花大价钱购买的智能硬件将成为一块砖头。所以,我坚信,最终的用户硬件应该能够完全离线运行,无需额外成本或使用在线 API。(用户可以选择是否使用在线api,但离线服务是必需的)

2024-03-29 11:21:20 1233

原创 万字梳理:50款国产大模型及应用,能否全面超越GPT-4? | 钛媒体AGI

AtomoVideo是阿里巴巴推出的一个高保真图像视频生成框架,该框架利用高质量的数据集和训练策略,保持了时间性、运动强度、一致性和稳定性,并具有高灵活性,可应用于长序列视频预测任务。因与Open AI此前推出的文生视频模型Sora功能相似,AtomoVideo也被称为中国版“Sora”。

2024-03-29 11:13:03 1742

原创 本地化语音识别、视频翻译和配音工具:赋能音频和视频内容处理

开发者的本地化语音识别、视频翻译和配音工具是一套功能强大的解决方案,非常适合各种音频和视频内容处理需求。无论您是需要转录会议、为视频添加字幕、翻译和配音内容,还是探索其他音频和视频相关任务,开发者的工具都可以帮助您提高效率并获得令人惊叹的结果。我们支持 Microsoft、Google、DeepL、百度和其他领先的翻译引擎,以及 EdgeTTS、OpenAI-tts 和 Elevenlabs 等流行的配音角色。与其他依赖互联网连接的解决方案不同,开发者的工具可以在没有任何互联网连接的情况下完全离线运行。

2024-03-21 11:51:05 545

原创 强的离谱,AI 大模型杀疯了!

除了Perplexity之外,海外AI搜索初创企业如Glean、Andi等近期动作频频,国内玩家如昆仑万维、百度、阿里、360等也都陆续推出了AI搜索产品。其中,昆仑万维更是早在2023年8月就推出了国内首款AI搜索产品“天工AI搜索”,成为国内AI搜索鼻祖。

2024-03-13 16:07:31 913

原创 语音情感基座模型emotion2vec

在语音技术领域,准确理解用户的语音指令和意图是构建高效人机交互系统的基础。一个高品质的语音交互系统不仅需要理解字面上的语言内容,更应捕捉到说话者语音中蕴含的情感信息。这正是语音情感识别(SER)技术要解决的问题:通过分析语音的声调、节奏、强度等副语言学信息,来判断说话者的情感状态,从而实现对人类意图的更真实和自然的理解。

2024-03-12 15:56:12 1196

原创 chatGPT的耳朵!OpenAI的开源语音识别AI:Whisper !

Whisper是由研发出ChatGPT的OpenAI的研究团队开发的,OpenAI的研究成果也经常引起广泛的关注和讨论,比如GPT系列的预训练语言模型、DALL-E的图像生成模型、CLIP的图像分类模型等等。

2024-03-07 14:00:04 1353

原创 DreamTalk:单张图像即可生成逼真人物说话头像动画,助力AI数字人落地

DreamTalk是一个基于扩散的音频驱动的富有表现力的说话头生成框架,可以生成不同说话风格的高质量的说话头视频。DreamTalk对各种输入表现出强大的性能,包括歌曲、多语言语音、噪声音频和域外肖像。

2024-03-04 16:27:53 1089

原创 52.2k star! 自己部署gpt4free, 免费使用各种GPT

GPT4Free是一个由开发者Xtekky在GitHub上发布的开源项目,它可以免费地使用GPT-3.5、GPT-4、llama、gemini-pro、bard、claude等多种大模型。截止到当前(2024.1.30)已经有52.2k star,可见其受欢迎程度。

2024-02-29 14:33:35 2990

原创 被年轻人置顶的国产大模型有多好玩?

岁末年终,AI给我带来了更大的惊喜:网友们在抖音、小红书分享了阿里巴巴「通义千问」大模型的最新玩法,让我发现生成式AI不只是打工人减负神器,更是让年轻人与故乡家人“紧密连接”的粒子对撞机。

2024-02-28 15:41:02 805

原创 Apple的这篇人工智能论文提出了声学模型融合,用以大幅降低语音识别系统中的单词错误率

Apple人工智能论文在提高自动语音识别 (ASR) 系统的准确性和效率方面取得了重大改进。最近的研究深入探讨将外部声学模型 (AM) 集成到端到端 (E2E) ASR 系统中,提出了一种解决域不匹配这一持续挑战的方法,这是语音识别技术中的常见障碍。

2024-02-22 15:26:20 707

原创 南洋理工大学NTU-生成式有源噪声控制GFANC

最近南洋理工大学DSP实验在TASLP,SPL,ICASSP上发表了生成式固定滤波器主动噪声控制(Deep Generative Fixed-filter Active Noise Control, GFANC) 的相关文章。

2024-02-21 16:00:38 827

原创 AI语音合成工具-Lalamu Studio

近期,Lalamu Studio开启了beta版本测试:Lalamu Studio。该工具整合了TTS和lip sync功能,可以让任意视频中的人物开口说话,并精确模拟口型。

2024-02-02 11:24:15 568

原创 语音革命:打造您的个人AI助手,悄悄分享我的开源语音识别全攻略!

在本文中,将详细讲解如何在.Net环境下实现这一功能,并且分享开源项目,让更多的开发者可以学习并应用到自己的项目中去。

2024-01-23 15:18:42 406

原创 AI语音合成工具-Lalamu Studio

近期,Lalamu Studio开启了beta版本测试:Lalamu Studio。该工具整合了TTS和lip sync功能,可以让任意视频中的人物开口说话,并精确模拟口型。

2024-01-19 14:35:37 583

原创 ICASSP 2024|字节跳动丢包补偿(冠军)与音质修复(亚军)国际挑战赛解决方案

在本届ICASSP 2024 各类音频国际挑战赛中,字节跳动流媒体音频团队联合西北工业大学音频语音与语言处理研究实验室,在丢包补偿(Packet Loss Concealment, PLC)与音质修复(Speech Signal Improvement, SSI)两个挑战赛道中,多项指标上表现优秀,分别取得第一和第二的优异成绩,达到国际领先水平。

2024-01-12 14:33:48 1144

原创 如何防止人工智能窃取你的声音

人工智能的进步使得听起来真实的语音合成成为可能,以至于一个人无法再区分自己是在与另一个人交谈还是与一个合成的声音交谈。如果一个人自己的声音在未经其同意的情况下被第三方“克隆”,恶意行为者就可以利用它来发送他们想要的任何消息。

2024-01-11 15:47:34 394

原创 ICASSP 2024丨上海交通大学跨媒体语言智能实验室14篇入选论文分享

此外,我们设计了一个BiRGAT模型来编码本体条目的层次结构,其骨干是一个双重关系图注意网络。杨亦凡,沈飞宇,杜晨鹏,马子阳,俞凯,Daniel Povey,陈谐。马子阳,吴雯,郑之胜,郭奕玮,陈谦,张仕良,陈谐。许洪深,曹瑞升,朱苏,蒋胜,张晗翀,陈露,俞凯。徐薛楠,徐晓航,谢泽宇,张平越,吴梦玥,俞凯。谢泽宇,李柏涵,徐薛楠,吴梦玥,俞凯。郭奕玮,杜晨鹏,马子阳,陈谐,俞凯。沈飞宇,郭奕玮,杜晨鹏,陈谐,俞凯。刘涛,杜晨鹏,樊帅,陈飞龙,俞凯。李俊杰,郭奕玮,陈谐,俞凯。刘森,郭奕玮,陈谐,俞凯。

2024-01-09 17:23:04 1656

原创 技术干货 | 加速语音识别模型推理的新方法——基于 CTC blank 控制的动态编码网络

网易云商关于“加速 CTC 语音识别模型推理”的论文被 ASRU2023 录用,ASR 是专注于探讨语音技术热点难点问题的国际顶级语音会议,本文将基于网易云商的实践经验,探究该论文解决的业务中的关键问题。

2024-01-09 16:14:25 1001

原创 小冰正式发布克隆人:已经有人拿它年入100万了!

2024开年,小冰再次归来,宣布将一系列测试产品转为正式发布!值得一提的是,小冰克隆人测试期间,部分大V网红年收入已破百万。

2024-01-08 14:54:47 928

原创 Ambiq推出语音增强人工智能以消除物联网应用中的噪声

超低功耗半导体解决方案供应商Ambiq®推出了其最新产品——神经网络语音增强器 (NNSE),并已将该方案加入到neuralSPOT的(开源模型)Model Zoo中。这一高度优化过的AI模型可以高效实时地将背景噪声从设备对话中去除,从而在嘈杂的环境中实现清晰的语音捕获。与所有Ambiq Model Zoo组件一样,NNSE包含脚本和工具,可帮助开发人员向其应用程序添加语音去噪功能。

2024-01-05 14:38:47 475

原创 LauraTTS:达摩院开源,对标VALL-E

testsetWERInsDelSub3.01155120083.53VALL-E16.14142148113768.17LauraTTS4.56447827878.20Highlights适用于英文语音合成,具备 zero-shot 说话人自适应能力,也可以作为普通的语音合成器,可用于多种语音合成场景。较高的语音合成质量具备 zero-shot 说话人自适应能力可以用于多种场景,例如音色转换(Voice conversion)项目介绍。

2024-01-03 11:50:33 551

原创 智能语音信息处理团队EMNLP 2023入选论文解析

2023年12月6日至10日,自然语言处理领域顶会EMNLP 2023在新加坡举行。语音及语言信息处理国家工程研究中心智能语音信息处理团队共3篇论文被会议主会及Findings接收,论文方向涵盖多方对话、大语言模型应用、小说理解等,各接收论文解读见后文。

2024-01-02 17:49:53 1001

原创 OpenAI TTS:手把手教学如何使用OpenAI Text-to-Speech API

文本到语音(TTS)是一种辅助技术,用于将以文本格式提供的自然语言转换为语音。具体来说,文本到语音系统会取用计算机(或其他数字设备)上写的文字,并将文本大声朗读出来。

2023-12-25 15:24:29 1221

原创 AAAI 2024 | 清华大学人机语音交互实验室的3篇录用论文分享

分享3篇清华大学人机语音交互实验室(THUHCSI) 在AAAI 2024上被录用的论文,本次被录用的3篇论文涉及基于大语言模型(LLM)的语音情感描述生成、基于强化学习(RL)的多样化舞蹈动作生成、基于节点相似度的图神经网络标定等多个研究领域。论文工作紧扣产学研,合作伙伴包括腾讯AI Lab、香港中文大学等。

2023-12-22 14:16:41 239

原创 大模型混战时代,互联网企业怎么办?

随着“百模大战”的号角响起,大模型的混战走到后半场。在寻求更多智能与商业化的路上,行业过滤分层会更为剧烈,泥沙俱下,只有手握硬核实力和资源的企业才会活下去。

2023-12-21 15:21:02 48

原创 实验室关于表现力语音合成自动风格控制和篇章情感分析的工作荣获最佳论文

近日,实验室在表现力语音合成的自动风格控制和篇章情感分析上连续取得研究进展。

2023-12-20 14:36:07 69

原创 VoiceFixer 2:用于语音恢复的工具包

VoiceFixer 是一款通用语音修复工具,使用 AI 消除背景噪音、修复降级语音、增强旧录音的音频质量、提高音频分辨率等等,全部功能都在一个模型中!

2023-12-19 15:46:39 172

原创 Opus编解码器中音乐检测的奥秘

Opus是一个有损音频压缩的数字音频编码格式,由Xiph.Org基金会开发,之后由互联网工程任务组(IETF)进行标准化,目标是希望用单一格式包含声音和语音,取代Speex和Vorbis,且适用于网络上低延迟的即时声音传输,标准格式定义于RFC 6716文件。

2023-12-18 15:16:37 116

原创 Meta 新推出的实时语音翻译模型 Seamless

SeamlessM4T 是我们基础的一体式大规模多语言和多模式机器翻译模型,可为近 100 种语言的语音和文本提供高质量翻译。

2023-12-14 16:40:21 324

原创 几个跟数字人项目相关的开源大模型

目前很多大模型如雨后春笋般涌现出来,都有点心慌了。冷静下来还是需要一个个去识别哪些对自己有用。

2023-12-13 16:08:27 875

原创 网易有道强力开源中英双语语音克隆

项目地址(基于PromptTTS):https://github.com/netease-youdao/EmotiVoice尝试EmotiVoice最简单的方法是运行docker镜像。你需要一台带有NVidia GPU的机器。先按照Linux和Windows WSL2平台的说明安装NVidia容器工具包。然后可以直接运行EmotiVoice镜像:docker run -dp 127.0.0.1:8501:8501 syq163/emoti-voice:latest现在打开浏览器,导航到 http://

2023-12-12 15:10:39 410

原创 中文读唇总动员:CNVSRC 2023 研讨会圆满落幕

12月9日晚,NCMMSC-CNVSRC 2023 学术研讨会在苏州召开的第十八届全国人机语音通讯学术会议(NCMMSC 2023)举办,会上公布了本次视觉语音识别竞赛 CNVSRC 2023 的最终结果,并举行颁奖仪式。

2023-12-11 17:16:27 69

原创 仅需30秒完美复刻任何人的声音 - 最强AI音频11Labs

ElevenLabs,简称11Labs。仅需30秒到5分钟左右的极少的数据集,就可以直接克隆任何一个人的声音,完美复刻他的说话方式、他的音色,甚至连他的情绪都复刻过来。

2023-12-08 14:13:55 395

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除