Hume 语音模型 OCTAVE:实现情感语音合成、声音克隆和多角色对话生成;通义开源多模态说话人识别项目 3D-Speaker

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。 我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@SSN,@鲍勃

01有话题的新闻

1、3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

3D-Speaker 是阿里巴巴通义实验室语音团队推出的多模态开源项目,旨在通过结合声学、语义和视觉信息,实现高精度的说话人识别和语种识别。项目提供了工业级模型、训练和推理代码,以及大规模多设备、多距离、多方言的数据集,支持高挑战性的语音研究。

3D-Speaker 的最新更新增强了多说话人日志功能,提升了识别效率和准确性,适用于大规模对话数据的高效处理。

3D-Speaker 的主要功能

说话人日志: 将音频划分为属于不同说话人的多个段落,识别出每个说话人的开始和结束时间。

说话人识别: 确定音频中说话人的身份。

语种识别: 识别音频中说话人所使用的语言。

多模态识别: 结合声学、语义、视觉信息,增强识别能力,尤其是在复杂声学环境中。

重叠说话人检测: 能识别出音频中任意说话人重叠的区域。(@蚝油菜花)

2、百川智能发布金融大模型 Baichuan4-Finance

百川智能发布全链路领域增强大模型 Baichuan4-Finance。据介绍, 通过行业首创的领域自约束训练方案,Baichuan4-Finance 实现了金融能力和通用能力同步提升的效果,极大提高了金融场景的整体可用性。

据媒体报道,内部人士透露,其金融专业能力和场景应用能力大幅领先 GPT-4o,在中国人民大学财政金融学院新近发布的评测体系 FLAME 以及国内主流开源金融评测基准 FinancelQ 上均登上榜首。

根据评测数据显示,Baichuan4-Finance 的整体准确率高达 93.62%,在银行、保险、基金和证券

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值