
语音识别ASR
文章平均质量分 93
语音识别
强化学习曾小健
"强化学习曾小健2、强化学习曾小健3、我是机器人曾小健具身"都是该号副号。CSDN全站80强博客、总近480w+浏览。AI生成式技术,计算机博士;llama3、Baichuan2、Qwen、GLM-4等等项目贡献人(ArtificialZeng)。这个博客的主题主要是强化学习技术、AI生成式技术、大模型多模态技术、机器人具身智能控制技术、机器/深度学习论文或科研前沿、GNN图神经网络、神经网络,包括人工神经网络和生物神经网络,及其大脑演化,智能和认知的产生,通用人工智能;
展开
-
SenseVoice- 中国版 Whisper 来了,5分钟带你部署体验
模型结构如下图所示:多语言语音识别:经过超过40万小时的数据训练,支持50多种语言,其识别性能超越了Whisper模型。丰富的转录能力:具备出色的情感识别能力,在测试数据上超越了当前最佳模型。提供声音事件检测能力,支持检测各种常见的人机交互事件,如背景音乐、掌声、笑声、哭泣、咳嗽和打喷嚏。高效推理:SenseVoice-Small模型采用非自回归的端到端框架,具有极低的推理延迟。处理10秒音频仅需70毫秒,比Whisper-Large快15倍。便捷的微调:提供便捷的微调脚本和策略。原创 2024-12-29 22:23:47 · 4610 阅读 · 0 评论 -
ASR- OpenAI语音转录工具被曝严重幻觉:转录100小时,一半儿在瞎扯
据悉,它还被集成在ChatGPT的一些版本中,同时也是Oracle和微软云计算平台的一项内置服务,而这些平台为全球数千家公司提供服务。如果公司愿意优先考虑,这似乎是可以解决的。例如,密歇根大学的一位研究员在尝试改进模型之前,发现其检查的每10份音频转录中有8份出现了幻觉。而现在,据美联社报道,很多研究人员和工程师反映,在工作中他们经常遇到Whisper产生的幻觉。原创 2024-12-29 22:15:39 · 669 阅读 · 0 评论 -
ASR强力模型「Whisper」:解密Whisper:AI驱动的语音识别新时代 -
它是一个强大的模型,能够处理多种语言的语音输入,支持实时转录、语音翻译等功能,并且在不同的音频质量和语境下都有良好的表现。,Whisper 将使用 16 位浮点数进行计算,从而加速推理过程并减少内存占用,适合在有 GPU 的情况下使用。是的,Whisper 会自动处理长音频文件,并将其分成多个段落进行转录,最终合并为完整的转录文本。Whisper 提供了多种不同大小的模型,选择合适的模型可以根据你的硬件条件和实际需求来决定。模型是较为推荐的选择。:能够处理多种语言的输入,并且可以进行多语言之间的翻译。原创 2024-12-29 22:12:43 · 2266 阅读 · 0 评论 -
[伟大工程师]达巴拉·拉贾戈帕尔(“RAJ”)·雷迪Reddy - 语音识别 Hearsay I 1994 年图灵奖
对信息和电信政策的杰出贡献”而获得大川奖,2005 年因其“在计算机科学和机器人技术方面的杰出成就”而获得本田奖,2005 年 IJCAI唐纳德·E·沃克 (Donald E. Walker) 杰出服务奖表彰他“对人工智能界的杰出服务”,并于 2006 年因其“在机器人和智能系统方面的开创性研究以及他在制定国家信息和电信政策方面的重大贡献”而荣获万尼瓦尔·布什奖 (Vannevar Bush Award)。2001年,雷迪被授予莲花士勋章,这是印度政府授予的第三高平民奖,以表彰他为国家做出的杰出贡献。原创 2024-05-18 18:16:45 · 974 阅读 · 0 评论