自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(135)
  • 收藏
  • 关注

原创 AISHELL-2 中文语音数据库

AISHELL-1 is by far the largest open-source speech corpus available for Mandarin speech recognition research. It was released with a baseline system containing solid training and testing pipelines for Mandarin ASR. In AISHELL-2, 1000 hours of cle

2022-03-09 16:41:03 6686

原创 AKOOL助力戛纳广告大奖,发布革命性实时数字人平台

此外,系统采用4K超高清分辨率,旨在呈现高质量的画面和精细的动作细节,进一步提升数字人的真实感和沉浸式体验。,不管是常见问题解答、产品推荐、还是简单故障排除,数字人都可以轻松应对,并能提供全天候、个性化客户支持,为人工客服减负,提高商家服务效率。在现有技术基础上,他们推出了一套数字人系统,不仅可以捕捉人脸的细微表情,还能实时展现流畅动作,生成数字人的娱乐性与互动性可与真人媲美。视频中,我们看到了姆巴佩、吉鲁、格里兹曼......,实际上,所有在球场上奔跑的运动员都不是真人,而是人工智能生成的虚拟角色。

2024-07-18 15:48:59 828

原创 6700万参数比肩万亿巨兽GPT-4!微软MIT等联手破解Transformer推理密码

在所有评估设置中,公理化训练模型TS2(NoPE)的性能明显优于随机基线,即使因果链的长度超过其训练数据。特别是,模型没有在完全反转的链上进行训练,它的表现也与规模更大的GPT-4模型相当(图 2)。在其他任务中,它的准确性往往优于或与Gemini Pro、Phi-3等十亿参数规模的模型相当。这些结果表明,经过公理训练的模型可以从简单因果序列的演示中,学会推理更复杂的因果结构。这表明公理训练在因果图推理方面的潜力。

2024-07-15 14:28:14 849

原创 6种语言超过10万小时语音生成数据集Emilia

🤔🤔 先听听基于Emilia数据集训练的语音合成TTS模型的生成效果,跟同样量级数据集训练的CosyVoice的生成效果对比,感受一下。再看看Emilia 10万小时数据集训练的TTS系统跟SeedTTS、ChatTTS等开源和商业系统/模型的客观指标对比(其中测试数据来自SeedTTS官方测试集)。目前该数据集是CC-BY-NC。相较于MLS、Libri-Light等有声书数据集,Emilia数据集在声学特征和语义覆盖方面更为丰富,如下图所示。数据预处理框架,学术界也能众筹数据了,也能玩大模型了!

2024-07-12 15:20:23 360

原创 中文读唇总动员:CNVSRC 2024 中文连续视觉语音识别挑战赛 Leaderboard 开放

当前,唇语识别的研究方兴未艾,虽然在独立词、短语等识别上取得了长足进展,但在大词表连续识别方面仍面临巨大挑战。为此,清华大学在2023年发布了 CN-CVS 数据集[1],成为首个大规模的中文视觉语音识别数据库,为进一步推动大词表连续视觉语音识别 (LVCVSR) 提供了可能。在提交结果的同时,参赛队伍需以论文形式提交系统技术报告。本次赛事以 CN-CVS 中文视觉语音识别数据库为基础数据,评估在录音室朗读 (Reading) 和网络演讲 (Speech) 两类场景下的 LVCVSR 系统的性能。

2024-07-03 15:23:42 778

原创 开源发布Whistle: 基于弱音素监督推进数据高效多语言和跨语言语音识别

论文地址:https://arxiv.org/abs/2406.02166开源代码及模型:https://github.com/thu-spmi/CAT/blob/master/egs/cv-lang10/readme.md摘 要Whistle和Whisper一样,均采用弱监督方式训练ASR基座模型。不同于Whisper采用基于子词(subword based)弱监督,Whistle采用基于音素(phoneme based)弱监督。子词是语言文本的记录符号,而音素则是记录了语

2024-07-03 15:16:31 1013

原创 全球首个开源类Sora猛升级,16秒720p画质电影感拉满!代码权重全开源

就在刚刚,潞晨Open-Sora团队在720p高清文生视频质量和生成时长上实现了突破性进展!如今,全新升级的Open-Sora不仅支持无缝产出任意风格的高质量短片,而且更令人惊喜的是,团队选择再给开源社区带来亿点点震撼——继续全部开源。通过他们的模型权重,能够生成各种酷炫的短片,比如海浪和海螺的亲密接触,还有那些深不可测的森林秘境。人物肖像的渲染也相当逼真。不管是中国古典美女,还是欧美风的人物,能够保持一致的风格。还能精准渲染赛博朋克风,让短片瞬间充满强烈的未来感和科技感。

2024-06-20 11:24:03 963

原创 【论文速递】IEEE T-ASLP|基于统一跨模态注意力机制的鲁棒音视频语音识别

本论文中,我们提出了基于统一跨模态注意力机制的音视频多模态语音识别系统,借助视觉模态中的唇部动作信息提升嘈杂环境下的语音识别性能。在文中,我们还提出了音视频同步性感知训练的策略,既显著缓解了音画不同步对系统性能的负面影响,也能直接用作音视频偏移量的预测任务。此外,我们设计的启发式的模态间注意力对齐方案能够显著降低多模态交互的计算复杂度,并带来进一步的性能增幅。

2024-06-20 11:02:18 760

原创 快手「可灵」爆火:海外AI圈巨震,中国版Sora一号难求

现在,我们用可灵生成的是 5 秒的单镜头片段,伴随着技术的不断演进,用户单次能够生成的视频时长也会增加。依托快手在视频技术领域的多年积累,可灵大模型团队已经构建了完备的标签体系,包括从视频基础质量、美学、自然度等多个维度对视频数据质量进行刻画,并针对每一个维度设计多种定制化的标签特征,以此来精细化筛选训练数据或调整训练数据的分布。为了满足训练文生视频模型过程中成对的视频和文本描述需求,可灵大模型团队自研了视频描述模型,可以生成精确、详尽、结构化的视频描述,显著提升视频生成模型的文本指令响应能力。

2024-06-13 17:58:25 1199

原创 中国版Sora震撼登场,原生16秒直出超清视频!国产黑马火了,世界模型签约多个大客户

2024年5月,极佳科技联合国内外多家单位推出了全球首篇通用世界模型综述,该综述通过260余篇文献,对世界模型在视频生成、自动驾驶、智能体、通用机器人等领域的研究和应用进行了详尽的分析和讨论,该综述还审视了当前世界模型的挑战和局限性,并展望了它们未来的发展方向。「视界一粟 YiSu」基于团队自研的视频生成大模型技术,并没有止步于DiT,而是融合LLM和扩散模型的自研架构,结合各种路线的优势,在多模态融合、训练效率、推理效率、模型效果等方面达到极致的优化,打造视频生成的最佳方案。

2024-06-11 17:49:58 804

原创 全球最强GPU芯片已量产、下一代Rubin曝光,老黄继续打破摩尔定律

黄仁勋以训练 GPT-4(1.8 万亿参数)为例,八年时间,该模型的能耗从 2016 年的 1000+GWh 下降到了如今的 3GWh,下降了 350 倍。与上一代 Hopper 系统相比,Blackwell 系统的 NVLink 域集成 72 个 GPU、性能提升了 9 倍,NVLink 带宽增加了 18 倍,AI 算力提升了 45 倍,供能提高了 10 倍。NIM 是一种推理微服务,通过以经过优化的容器的形式提供模型,以部署在云、数据中心或工作站上。不过,他并没有透露关于 Rubin 的更多细节。

2024-06-03 16:48:35 516

原创 超越Devin!姚班带队,他们创大模型编程新世界纪录

SWEBench排行榜上迎来了新玩家——,姚班带队初创公司OpenCSG出品,以23.67%的成绩获得全球第二名的成绩。同时创造了(SOTA)。我们都知道,SWEBench评测高度贴近真实编程场景,难度极高,不仅要求模型能理解需求、协调多个函数/类甚至文件的变更,还要求模型与执行环境交互,处理超长上下文并执行远超传统代码生成任务的复杂逻辑推理。在这种高难度的真实测试中,行业中最先进的GPT4和Devin,也仅能解决1.74%和13.86%的问题。

2024-06-03 15:36:13 1347

原创 现在,所有人都能免费用GPT-4o了!

OpenAI今日官宣,ChatGPT正式向所有用户免费开放!所有用户均可以访问定制化GPT、分析图表、询问有关照片的问题以及5月初GPT-4o添加的其他功能。OpenAI今天在X上发布推文:「所有ChatGPT免费用户现在都可以使用浏览、视觉、数据分析、文件上传和GPTs。OpenAI此前就曾承诺向所有人免费开放他们的新旗舰产品GPT-4o以及浏览、数据分析和内存等功能。时隔半个月,承诺终于兑现。免费用户狂喜,可是付费用户却笑不出来。「如果每个人都免费,为什么我要付费?

2024-05-31 14:03:40 791

原创 基于LLM的语音识别——在1.1万小时开源中文数据上的探索

耿雪龙,徐天翼,魏坤,穆秉甡,薛鸿飞,王贺,李泱泽,郭鹏程,戴宇航,李龙豪,邵明辰,谢磊大语言模型(LLM)在人工智能领域扮演着重要角色,特别是在理解和生成人类语言的能力方面表现突出。研究人员利用LLM的优势,探索将其与语音识别(ASR)等技术相结合的可能性,并已在多个应用场景中取得显著成效。ASR是同时依赖于声学和语言建模的任务,常用的语言模型包括n-gram和神经网络语言模型(NNLM)[1]。当下,LLM在训练数据规模和模型尺寸上的优势,为ASR的语言建模提供了新的尝试机会。

2024-05-22 11:52:30 948

原创 搞定语音识别,畅享高效处理 | 开源专题 No.78

FunASR 是一个基础的语音识别工具包,提供了多种功能,包括语音识别(ASR)、语音活动检测(VAD)、标点还原、语言模型、说话人验证、说话人分离和多讲者 ASR。其中代表性的 Paraformer-large 模型具有高准确性、高效率和便捷部署等优势,支持快速构建语音识别服务。多领域支持:AudioGPT 在多个领域都提供了强大的支持,包括文本到语言合成、风格迁移以及各种与声学相关任务。该项目还提供了丰富而全面的平台支持,包括 Mac OS、iOS、Android、Java 等多个操作系统/环境。

2024-05-21 16:44:26 831

原创 闭源赶超GPT-4 Turbo、开源击败Llama-3-70B,歪果仁:这中国大模型真香

以 Qwen1.5-72B 为例,这个模型不仅登顶过 HuggingFace 开源大模型排行榜、OpenCompass 开源基座大模型排行榜,而且在 MT-Bench 和 Alpaca-Eval v2 评测中也表现不俗,超过 Claude-2.1、GPT-3.5-Turbo-0613、Mixtral-8x7b-I nstruct 等模型。其实,这两者是相辅相成的。我们看到,无论是在开源还是闭源的竞技场上,开发者、企业用户都有很多的模型可以选择,因此,即使是做开源,也要开源最强的模型才有人用。

2024-05-13 14:47:20 797

原创 美国空军高调展示首个AI战斗机!部长亲自试驾全程未干预,10万行代码试飞21次

美军战斗机,能由AI完成自主空战了!最近,美国空军部长Kendall亲自试驾了国防部正在研制的X-62A AI飞机。1小时的飞行过程中,Kendall全程未干预,所有动作都由AI自主完成。最近,军事圈被这个消息刷屏了:美军的战斗机,已经能由AI完成全自动空战了。是的,就在最近,美军的AI战斗机首次公开,揭开了神秘面纱。这架战斗机的全名,是可变稳定性飞行模拟器测试飞机(VISTA),由美空军部长亲自搭乘,模拟了一对一的空战。

2024-05-13 13:53:03 655

原创 苹果AI终于来了!从2.7到30亿四款大模型代码全开源,AI技术持续“狂飙”|钛媒体AGI

还使用了与Meta的Llama相同的分词器,以确保实验的一致性。苹果在论文中还表示,与以往只提供模型权重和推理代码并在私有数据集上进行预训练的做法不同,苹果发布的版本包含了在公开数据集上训练和评估语言模型的完整框架,包括训练日志、多个检查点和预训练配置。虽然最小的参数只有2.7亿,但苹果使用了包括RefinedWeb、去重的PILE、RedPajama的子集和Dolma v1.6的子集在内的公共数据集,一共约1.8万亿tokens数据进行了预训练,这也是其能以小参数表现出超强性能的主要原因之一。

2024-05-08 14:27:41 854

原创 迈向语音大模型的平权之路

什么样的事情最有价值?。把 1B 级别的大模型优化到和 200M级别模型相同水平的 RTF 同时 WER 维持代差,难道不是一件该令人亢奋的事情吗?在两个月前的年度总结中,WeNet 社区已经开始向着更“大”更“强”迈进,去全面拥抱语音大模型的无限未来。然而,横在语音大模型面前的还有两座必须翻越的山峰:和。经过 2023 年下半年的努力,WeNet 已经翻越了第一座山峰,达成了。

2024-05-07 14:53:51 885 1

原创 Open-Sora:开源版的Sora

本项目希望通过开源社区的力量复现Sora,由北大-兔展AIGC联合实验室共同发起,当前我们资源有限仅搭建了基础架构,无法进行完整训练,希望通过开源社区逐步增加模块并筹集资源进行训练,当前版本离目标差距巨大,仍需持续完善和快速迭代,欢迎Pull request!!!

2024-04-24 11:05:01 742

原创 谷歌发布基于声学建模的无限虚拟房间增强现实鲁棒语音识别技术

在声学建模过程中,我们假设麦克风的指向性可以增强模拟的冲击响应(IRs)的真实感,因为麦克风指向性是录制IRs时关键的声学特征。正如我们所假设的那样,我们得出了以下结论(见下文),即通过使模拟IRs更接近于录制IRs行为,并提高模拟数据集质量,从而进一步提升整体模型性能,而无需进行昂贵且耗时的录制过程。同时,S[4000]+M[720]也优于在S[8000](包含8000个模拟)上进行训练的模型,这说明小子集中所提取出来的记录IRs数量减少了所需的模拟IRs数量(8000→4000 )。

2024-04-24 10:58:51 1148 2

原创 在树莓派上运行语音识别和LLama-2 GPT!

目前,绝大多数大模型运行在云端服务器,终端设备通过调用api的方式获得回复。但这种方式有几个缺点:首先,云api要求设备始终在线,这对于部分需要在无互联网接入的情况运行的设备很不友好;其次,云api的调用需要消耗流量费,用户可能不想支付这部分费用;最后,如果几年后,项目组被关停,API接口被关闭,那么用户花大价钱购买的智能硬件将成为一块砖头。所以,我坚信,最终的用户硬件应该能够完全离线运行,无需额外成本或使用在线 API。(用户可以选择是否使用在线api,但离线服务是必需的)

2024-03-29 11:21:20 1924

原创 万字梳理:50款国产大模型及应用,能否全面超越GPT-4? | 钛媒体AGI

AtomoVideo是阿里巴巴推出的一个高保真图像视频生成框架,该框架利用高质量的数据集和训练策略,保持了时间性、运动强度、一致性和稳定性,并具有高灵活性,可应用于长序列视频预测任务。因与Open AI此前推出的文生视频模型Sora功能相似,AtomoVideo也被称为中国版“Sora”。

2024-03-29 11:13:03 3746

原创 本地化语音识别、视频翻译和配音工具:赋能音频和视频内容处理

开发者的本地化语音识别、视频翻译和配音工具是一套功能强大的解决方案,非常适合各种音频和视频内容处理需求。无论您是需要转录会议、为视频添加字幕、翻译和配音内容,还是探索其他音频和视频相关任务,开发者的工具都可以帮助您提高效率并获得令人惊叹的结果。我们支持 Microsoft、Google、DeepL、百度和其他领先的翻译引擎,以及 EdgeTTS、OpenAI-tts 和 Elevenlabs 等流行的配音角色。与其他依赖互联网连接的解决方案不同,开发者的工具可以在没有任何互联网连接的情况下完全离线运行。

2024-03-21 11:51:05 643

原创 强的离谱,AI 大模型杀疯了!

除了Perplexity之外,海外AI搜索初创企业如Glean、Andi等近期动作频频,国内玩家如昆仑万维、百度、阿里、360等也都陆续推出了AI搜索产品。其中,昆仑万维更是早在2023年8月就推出了国内首款AI搜索产品“天工AI搜索”,成为国内AI搜索鼻祖。

2024-03-13 16:07:31 934

原创 语音情感基座模型emotion2vec

在语音技术领域,准确理解用户的语音指令和意图是构建高效人机交互系统的基础。一个高品质的语音交互系统不仅需要理解字面上的语言内容,更应捕捉到说话者语音中蕴含的情感信息。这正是语音情感识别(SER)技术要解决的问题:通过分析语音的声调、节奏、强度等副语言学信息,来判断说话者的情感状态,从而实现对人类意图的更真实和自然的理解。

2024-03-12 15:56:12 1617

原创 chatGPT的耳朵!OpenAI的开源语音识别AI:Whisper !

Whisper是由研发出ChatGPT的OpenAI的研究团队开发的,OpenAI的研究成果也经常引起广泛的关注和讨论,比如GPT系列的预训练语言模型、DALL-E的图像生成模型、CLIP的图像分类模型等等。

2024-03-07 14:00:04 1751

原创 DreamTalk:单张图像即可生成逼真人物说话头像动画,助力AI数字人落地

DreamTalk是一个基于扩散的音频驱动的富有表现力的说话头生成框架,可以生成不同说话风格的高质量的说话头视频。DreamTalk对各种输入表现出强大的性能,包括歌曲、多语言语音、噪声音频和域外肖像。

2024-03-04 16:27:53 1230

原创 52.2k star! 自己部署gpt4free, 免费使用各种GPT

GPT4Free是一个由开发者Xtekky在GitHub上发布的开源项目,它可以免费地使用GPT-3.5、GPT-4、llama、gemini-pro、bard、claude等多种大模型。截止到当前(2024.1.30)已经有52.2k star,可见其受欢迎程度。

2024-02-29 14:33:35 4968 1

原创 被年轻人置顶的国产大模型有多好玩?

岁末年终,AI给我带来了更大的惊喜:网友们在抖音、小红书分享了阿里巴巴「通义千问」大模型的最新玩法,让我发现生成式AI不只是打工人减负神器,更是让年轻人与故乡家人“紧密连接”的粒子对撞机。

2024-02-28 15:41:02 832

原创 Apple的这篇人工智能论文提出了声学模型融合,用以大幅降低语音识别系统中的单词错误率

Apple人工智能论文在提高自动语音识别 (ASR) 系统的准确性和效率方面取得了重大改进。最近的研究深入探讨将外部声学模型 (AM) 集成到端到端 (E2E) ASR 系统中,提出了一种解决域不匹配这一持续挑战的方法,这是语音识别技术中的常见障碍。

2024-02-22 15:26:20 738

原创 南洋理工大学NTU-生成式有源噪声控制GFANC

最近南洋理工大学DSP实验在TASLP,SPL,ICASSP上发表了生成式固定滤波器主动噪声控制(Deep Generative Fixed-filter Active Noise Control, GFANC) 的相关文章。

2024-02-21 16:00:38 868

原创 AI语音合成工具-Lalamu Studio

近期,Lalamu Studio开启了beta版本测试:Lalamu Studio。该工具整合了TTS和lip sync功能,可以让任意视频中的人物开口说话,并精确模拟口型。

2024-02-02 11:24:15 643

原创 语音革命:打造您的个人AI助手,悄悄分享我的开源语音识别全攻略!

在本文中,将详细讲解如何在.Net环境下实现这一功能,并且分享开源项目,让更多的开发者可以学习并应用到自己的项目中去。

2024-01-23 15:18:42 430

原创 AI语音合成工具-Lalamu Studio

近期,Lalamu Studio开启了beta版本测试:Lalamu Studio。该工具整合了TTS和lip sync功能,可以让任意视频中的人物开口说话,并精确模拟口型。

2024-01-19 14:35:37 710

原创 ICASSP 2024|字节跳动丢包补偿(冠军)与音质修复(亚军)国际挑战赛解决方案

在本届ICASSP 2024 各类音频国际挑战赛中,字节跳动流媒体音频团队联合西北工业大学音频语音与语言处理研究实验室,在丢包补偿(Packet Loss Concealment, PLC)与音质修复(Speech Signal Improvement, SSI)两个挑战赛道中,多项指标上表现优秀,分别取得第一和第二的优异成绩,达到国际领先水平。

2024-01-12 14:33:48 1193

原创 如何防止人工智能窃取你的声音

人工智能的进步使得听起来真实的语音合成成为可能,以至于一个人无法再区分自己是在与另一个人交谈还是与一个合成的声音交谈。如果一个人自己的声音在未经其同意的情况下被第三方“克隆”,恶意行为者就可以利用它来发送他们想要的任何消息。

2024-01-11 15:47:34 421

原创 ICASSP 2024丨上海交通大学跨媒体语言智能实验室14篇入选论文分享

此外,我们设计了一个BiRGAT模型来编码本体条目的层次结构,其骨干是一个双重关系图注意网络。杨亦凡,沈飞宇,杜晨鹏,马子阳,俞凯,Daniel Povey,陈谐。马子阳,吴雯,郑之胜,郭奕玮,陈谦,张仕良,陈谐。许洪深,曹瑞升,朱苏,蒋胜,张晗翀,陈露,俞凯。徐薛楠,徐晓航,谢泽宇,张平越,吴梦玥,俞凯。谢泽宇,李柏涵,徐薛楠,吴梦玥,俞凯。郭奕玮,杜晨鹏,马子阳,陈谐,俞凯。沈飞宇,郭奕玮,杜晨鹏,陈谐,俞凯。刘涛,杜晨鹏,樊帅,陈飞龙,俞凯。李俊杰,郭奕玮,陈谐,俞凯。刘森,郭奕玮,陈谐,俞凯。

2024-01-09 17:23:04 2179

原创 技术干货 | 加速语音识别模型推理的新方法——基于 CTC blank 控制的动态编码网络

网易云商关于“加速 CTC 语音识别模型推理”的论文被 ASRU2023 录用,ASR 是专注于探讨语音技术热点难点问题的国际顶级语音会议,本文将基于网易云商的实践经验,探究该论文解决的业务中的关键问题。

2024-01-09 16:14:25 1031

原创 小冰正式发布克隆人:已经有人拿它年入100万了!

2024开年,小冰再次归来,宣布将一系列测试产品转为正式发布!值得一提的是,小冰克隆人测试期间,部分大V网红年收入已破百万。

2024-01-08 14:54:47 951

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除