Hume 语音模型 OCTAVE：实现情感语音合成、声音克隆和多角色对话生成；通义开源多模态说话人识别项目 3D-Speaker

RTE开发者社区

于 2024-12-24 18:18:46 发布

阅读量1k

点赞数 17

分类专栏：人工智能文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/agora_cloud/article/details/144699378

版权

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

01有话题的新闻

1、3D-Speaker：阿里通义开源的多模态说话人识别项目，支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

3D-Speaker 是阿里巴巴通义实验室语音团队推出的多模态开源项目，旨在通过结合声学、语义和视觉信息，实现高精度的说话人识别和语种识别。项目提供了工业级模型、训练和推理代码，以及大规模多设备、多距离、多方言的数据集，支持高挑战性的语音研究。

3D-Speaker 的最新更新增强了多说话人日志功能，提升了识别效率和准确性，适用于大规模对话数据的高效处理。

3D-Speaker 的主要功能

说话人日志： 将音频划分为属于不同说话人的多个段落，识别出每个说话人的开始和结束时间。

说话人识别： 确定音频中说话人的身份。

语种识别： 识别音频中说话人所使用的语言。

多模态识别： 结合声学、语义、视觉信息，增强识别能力，尤其是在复杂声学环境中。

重叠说话人检测： 能识别出音频中任意说话人重叠的区域。（@蚝油菜花）

2、百川智能发布金融大模型 Baichuan4-Finance

百川智能发布全链路领域增强大模型 Baichuan4-Finance。据介绍，通过行业首创的领域自约束训练方案，Baichuan4-Finance 实现了金融能力和通用能力同步提升的效果，极大提高了金融场景的整体可用性。

据媒体报道，内部人士透露，其金融专业能力和场景应用能力大幅领先 GPT-4o，在中国人民大学财政金融学院新近发布的评测体系 FLAME 以及国内主流开源金融评测基准 FinancelQ 上均登上榜首。

根据评测数据显示，Baichuan4-Finance 的整体准确率高达 93.62%，在银行、保险、基金和证券

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。