开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。 我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@SSN,@鲍勃
01有话题的新闻
1、3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录
3D-Speaker 是阿里巴巴通义实验室语音团队推出的多模态开源项目,旨在通过结合声学、语义和视觉信息,实现高精度的说话人识别和语种识别。项目提供了工业级模型、训练和推理代码,以及大规模多设备、多距离、多方言的数据集,支持高挑战性的语音研究。
3D-Speaker 的最新更新增强了多说话人日志功能,提升了识别效率和准确性,适用于大规模对话数据的高效处理。
3D-Speaker 的主要功能
说话人日志: 将音频划分为属于不同说话人的多个段落,识别出每个说话人的开始和结束时间。
说话人识别: 确定音频中说话人的身份。
语种识别: 识别音频中说话人所使用的语言。
多模态识别: 结合声学、语义、视觉信息,增强识别能力,尤其是在复杂声学环境中。
重叠说话人检测: 能识别出音频中任意说话人重叠的区域。(@蚝油菜花)
2、百川智能发布金融大模型 Baichuan4-Finance
百川智能发布全链路领域增强大模型 Baichuan4-Finance。据介绍, 通过行业首创的领域自约束训练方案,Baichuan4-Finance 实现了金融能力和通用能力同步提升的效果,极大提高了金融场景的整体可用性。
据媒体报道,内部人士透露,其金融专业能力和场景应用能力大幅领先 GPT-4o,在中国人民大学财政金融学院新近发布的评测体系 FLAME 以及国内主流开源金融评测基准 FinancelQ 上均登上榜首。
根据评测数据显示,Baichuan4-Finance 的整体准确率高达 93.62%,在银行、保险、基金和证券