全新图文对、视频文本对数据集,高效赋能多模态大模型训练任务

海天瑞声11月数据集上新!这次推出的数据集包括语音识别、语音合成、多模态等领域,可用于多模态大模型训练任务,开发者可轻松应对数据瓶颈,高效提升模型性能。

  • 印度尼西亚语语音识别数据集

  • 泰语语音识别数据集

  • 温柔贴心中文女声语音合成数据集

  • 美国英语多情感语音合成数据集

  • 人体动作视频文本对数据集

  • 人体行为图文对数据集

  • 监控人体图文对数据集

  • 人脸图文对数据集

  • 专业场景图文对数据集

  • 通识图文对数据集

图片

印尼语语音识别数据集-对话

印尼语是印度尼西亚的官方语言,也是马来西亚和文莱的官方语言之一,在新加坡和东帝汶也有一定数量的使用者,全球约有1.9亿人口使用印尼语。高质量印尼语数据有助于提升模型语音识别能力,助力企业拓展东南亚市场。 

🔥 产品特色:数据集含 100名发音人,总时长109小时95%以上字准确率。发音人性别均衡,年龄跨度从18岁到65岁,全面覆盖了不同年龄段的语言特征。

🚀 话题内容:家庭、健康、音乐、购物、体育、旅行、工作、食物、教育、电影、社交网络、朋友、娱乐、新闻、宠物、计算机、电视、名人、生活、结婚、天气等日常闲聊话题。

图片

泰语语音识别数据集-对话

泰语又称泰国语或暹罗语,主要在泰国和老挝部分地区使用,全球约有6800万人口使用泰语。对话数据有助于模型理解真实场景的对话模式和语言习惯,提升对泰语理解的准确度。

🔥 产品特色:包含402名发音人,总时长超203小时,95%以上字准确率。61.69%男性和38.31%女性发音人,年龄跨度从18岁到65岁,全面覆盖了不同年龄段的语言特征。

🚀 话题内容:包括泰语独白和会话,覆盖金融、教育、医疗、技术、环境、旅游等11个行业。

图片

中文女声语音合成数据集-温柔贴心

卓越的数据质量深受客户喜爱,成为数字人和虚拟主播的理想选择,能够助力模型生成更加自然和有吸引力的音色。

🔥 产品特色:总时长4.43小时,99%以上字准确率。音色亲切温柔,语速均匀。标注发音、韵律等细节。

🚀 话题内容:包含情侣对话、电商直播、陈述语气、自由对话等内容。覆盖愉悦、不满、害怕、温柔、抒情、悲伤、严厉、友好、低语、抱歉、兴奋、撒娇、愤怒、平静等14种情感

图片

美国英语多情感语音合成数据集

在游戏、有声读物、虚拟人等领域,情感丰富的语音合成数据能够提升模型语音合成效果,增加用户体验,助力国内企业出海欧美市场。

🔥 产品特色:共包括3个数据集,每种音色3小时,由2男和1女录制,3个音色年龄段。每个音色包括中性、开心、愤怒、悲伤、震惊、憎恨、害怕、大喊、哭泣、大笑、虚弱等11种情感。

图片

人体动作视频文本对数据集

🔥 产品特色:多种场景(室内、室外),多种语言文本(中文、英文),多年龄段(青年、中年、老年)多种人体动作(包括但不限于打电话、抽烟、喝水等),文本描述视频中人员信息及人员动作内容。提供视频中主要元素的标签。

🚀 产品规模:100,000组

🖼️ 图片规格:不低于1080P,视频时长不低于5s

📝 文本规格:包含主要元素标签、中文及英文描述

图片

人体行为图文对数据集

🔥 产品特色:多色人种室内外不同采集场景下,涵盖了常见的面部表情及丰富肢体动作,不同拍摄角度及年龄段(均为成年人)的多种人体行为图片及文本描述。

🚀 产品规模:20,000组

🖼️ 图片规格:512P及以上

📝 文本规格:包含标签,中文及英文描述

图片

监控人体图文对数据集

🔥 产品特色:室内和室外多样采集环境,涵盖老中青不同年龄段,以及不同季节的人体图像。中英文本的描述,包含人体对应位置、方位指示等细节标注。

🚀 产品规模:20,000组

🖼️ 图片规格:720P以上

📝 文本规格:包含中文及英文描述

图片

人脸图文对数据集

🔥 产品特色:多色人种室内外不同采集场景下,成年人佩戴口罩、眼镜、耳机,表现多种常见表情的面部图片及文本描述。

🚀 产品规模:20,000组

🖼️ 图片规格:512P及以上

📝 文本规格:包含中文及英文描述

图片

专业场景图文对数据集

🔥 产品特色:多种场景、多时间段、多种拍摄角度的图像,图像覆盖建筑、陈列、城市街景、家庭环境、比赛场景、商场、学校、展览、自然环境等。提供对应文本描述。

🚀 产品规模:20,000组

🖼️ 图片规格:720P及以上

📝 文本规格:包含标签,中文及英文描述,中文描述大于30个汉字(不包含符号)。

图片

通识图文对数据集

🔥 产品特色:包含人物、美食、风景、建筑、城市、乡村、健康、运动、医疗、汽车、背景、金融、教育、油画、插画、水彩、旅行、时尚、浪漫、动物、植物、太空、科技等23种类别数据。

🚀 产品规模:2,000,000组

🖼️ 图片规格:2K及以上

📝 文本规格:包含标签,中文或英文描述

### AI大模型能智能座舱多模态交互的思维导图 以下是一个关于AI大模型能智能座舱多模态交互的思维导图结构描述,旨在帮助理解各部分之间的关系及其关键技术点。 #### ### 1. 核心概念 - **AI大模型** - 定义:大规模预训练语言模型或多模态模型[^1]。 - 特征:超大规模参数量、泛化能力强、支持多种任务类型。 - **智能座舱** - 定义:集成多种IT技术和人工智能技术的一体化数字平台[^4]。 - 功能目标:提升用户体验、增强行车安全性、实现个性化服务。 - **多模态交互** - 含义:结合语音、图像、手势等多种输入方式完成复杂任务[^3]。 - 技术基础:跨模态对齐、特征提取与融合。 --- #### ### 2. 应用场景 - **语音语义理解** - 提升对话系统的自然性和流畅性[^3]。 - 实现深层次的人机互动,例如情感分析和支持上下记忆。 - **视觉感知** - 驾驶员状态监测(疲劳检测、情绪识别)[^2]。 - 手势控制和面部表情解析。 - **触觉反馈** - 结合振动或其他物理信号传递信息。 - 增强沉浸感并减少驾驶分心风险。 --- #### ### 3. 技术架构 - **底层基础设施** - 边缘计算设备用于实时处理本地数据[^5]。 - 数据传输协议保障低延时通信。 - **中间层模块** - 多模态特征表示学习算法[^6]。 - 使用Transformer架构进行序列建模。 - 跨模态注意力机制提高关联性捕捉精度。 - Prompt Engineering优化提示设计流程。 - 构造高质量指令引导模型生成特定输出。 - 运用思维链方法逐步推导解决方案。 - **高层应用接口** - 开发者工具包简化定制化开发工作流[^7]。 - 用户界面适配不同年龄段和技术水平群体需求。 --- #### ### 4. 挑战与机遇 - **主要挑战** - 计算资源消耗巨大可能导致成本增加[^8]。 - 数据隐私保护成为重要议题需要妥善解决。 - **潜在机会** - 推动汽车行业向更高层次智能化迈进[^9]。 - 创造全新商业模式如订阅制增值服务。 --- #### ### 5. 示例代码片段 下面给出一段简单的Python代码演示如何利用Hugging Face Transformers库加载预训练好的BERT模型来进行文本分类任务作为参考之一: ```python from transformers import BertTokenizer, BertForSequenceClassification import torch tokenizer = BertTokenizer.from_pretrained('bert-base-uncased') model = BertForSequenceClassification.from_pretrained('bert-base-uncased') inputs = tokenizer("Hello world!", return_tensors="pt") labels = torch.tensor([1]).unsqueeze(0) outputs = model(**inputs, labels=labels) loss = outputs.loss logits = outputs.logits ``` 此段代码展示了基本的操作步骤包括初始化tokenzier对象、准备输入张量以及调用forward函数得到预测结果等操作过程[^1]. ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值