海天瑞声AI-CSDN博客

原创全新逆正则ASR数据集、多年龄TTS数据集，为构建AI系统提供核心数据动能

家庭、健康、音乐、购物、体育、旅行、工作、食物、教育、电影、社交网络、朋友、娱乐、新闻、宠物、计算机、电视、名人、生活、结婚、天气等日常闲聊话题。，每人1-3小时不等。覆盖英语（美式、英式）、阿拉伯语、俄语、葡萄牙语、日语、韩语、中文方言（北京话、四川话、东北话、香港粤语）等。包括阿拉伯语、英语（英式、美式）、西班牙语、葡萄牙语、法语、德语、意大利语、中文普通话、日语、韩语、印地语、印度英语。家庭、生活、健康、兴趣、娱乐、运动、旅行、工作、新闻、宠物、天气等日常闲聊话题。覆盖积极、消极、中性等不同情绪。

2025-04-30 10:22:09 772

原创高质量双工自然对话数据，助力大模型口语能力进化

数据包含多种标注维度，包括：语音特征标注（副语言现象、发音清晰度）、逐字转写文本与时间轴对齐、说话人元数据（身份标识、性别、音色特征）、环境标注（背景噪声分类与时间定位）以及特殊场景标记（语音重叠、即兴插话等）。包括中文及方言、英语、法语、德语、西班牙语、葡萄牙语、捷克语、日语、阿拉伯语、马来语、印地语、泰米尔语、泰卢固语、土耳其语、丹麦语、冰岛语等。真正的工业级应用，必须扛住现实场景中的突发咳嗽、背景音乐、方言混杂。对话围绕电商、金融、车载、医疗、家庭、娱乐、教育、运动、购物等20多个领域。

2025-04-11 17:44:46 433

原创模型开源｜支持东方40语种+中国22方言的新SOTA语音大模型Dolphin开源啦！

在当今数字化时代，语音识别技术已成为人机交互的关键桥梁，广泛应用于智能客服、语音助手、会议转录等众多领域。然而，对于东方语言的识别如越南语、缅甸语等，现有模型往往表现不佳，难以满足用户的需求。为解决这一难题，支持东方40个语种的语音识别，中文语种支持22方言（含普通话）；训练数据总时长21.2万小时：其中海天瑞声高质量专有数据13.8万小时，开源数据7.4万小时；在3个测试集（海天瑞声、Fleurs、CommonVoice）下，与Whisper同等尺寸模型相比：base版本平均WER降低63.1%；

2025-04-02 09:00:00 1787

原创高质量思维链（CoT）数据助力Deepseek成为国产大模型之光

而思维链（CoT）技术显式展示了模型在推理过程中所做的每一步推理和计算，使得模型的输出更加透明和易于理解。是近年来在人工智能领域逐渐被广泛采用的一种技术，它的核心优势在于通过模拟人类的思维过程，使得 AI 系统不仅能够做出决策，还能清晰地展示其推理过程。这种显式的推理过程提升了 AI 的可解释性和透明度，尤其在复杂的推理任务中，比传统模型更加出色。DeepSeek-R1采用了混合专家架构，能够根据输入内容动态调用不同的专家网络，在计算成本不变的情况下，大幅提升模型的规模和性能。

2025-03-25 17:28:36 994

原创报名 | IEEE ICME 2025 音频编码器能力挑战赛正式开启

赛道 A 关注预训练模型在特定任务上的适配性与有效性，而赛道 B 则评估音频表征的内在能力，不做任何微调，评价嵌入表征的内在能力。该方法评估模型通过一个额外的线性层适配到特定任务的能力，同时不改变原始模型的参数。参赛者需提交输入为波形、输出为连续嵌入向量的音频编码器，我们将采用带参数和无参数两种评估方法，在语音、环境声音和音乐等多个任务上衡量编码器的性能。启发，引入了多项增强，包括多样化的任务集、面向真实世界的应用、微调和 zero-shot 评估相结合，以及一个新的高效的。主办方不规定具体的训练数据集。

2025-02-06 17:53:58 1271

原创全新图文对、视频文本对数据集，高效赋能多模态大模型训练任务

数据集包括语音识别、语音合成、多模态等领域，可用于多模态大模型训练任务，开发者可轻松应对数据瓶颈，高效提升模型性能。

2024-12-02 15:10:17 824

原创全新语音&图像数据集，以高质量训练数据加速提升模型性能

包含印度众多主要语种，迈蒂利语、孟加拉语、马拉地语、泰卢固语、马拉雅拉姆语、泰米尔语、奥利亚语、乌尔都语克什米尔语、旁遮普语、阿萨姆语等。美国英语、新加坡英语、英国英语、澳大利亚英语、加拿大英语、印度英语、日本英语、法国英语、德国英语、中国香港英语、中国台湾英语等。，美国西班牙语、墨西哥西班牙语、哥伦比亚西班牙语、委内瑞拉西班牙语、智利西班牙语、阿根廷西班牙语等。包含自然对话、单词、冷笑话、谜语、歇后语、绕口令、诗歌、歇后语、语气词等特色内容。均经过精确标注，包括发音、韵律和副语言特征（重音、拖音）。

2024-10-25 15:39:06 828

原创海天瑞声携手中国移动共创AI+时代，以高质量AI训练数据驱动数智化发展

通过高质量AI训练数据赋能智能座舱、智能助手等众多应用场景，让模型更精准的识别多语种指令，优化用户体验，为中国企业的全球化之路提供了坚实的数据支撑。10月12日，在2024中国移动全球合作伙伴大会期间，中国移动携手央企及产业各方共同发布大模型评测体系建设的重要成果《通用大模型评测标准》，为产业界遴选优质大模型提供重要参考依据。未来，海天瑞声将继续积极与中国移动集团及其旗下企业共同合作，将高质量AI训练数据与中国移动建设的算力网络深度融合，携手探索更多AI解决方案的落地，共同推动AI+时代的蓬勃发展。

2024-10-14 14:49:56 642

原创黑神话降临：揭秘AI数据如何助力游戏应用创新

同时包括中性、喜、怒、哀、惧、不屑、关切、严肃、内心独白等九种基本情绪，以及哭泣、结巴、笑、冷哼、叹气等副语言，还有疑惑、惊讶等语气。从技术层面来看，基于机器学习的各种能力，都离不开算法和数据的积累。《黑神话：悟空》在开发过程中，运用了多种先进的AI技术，从角色行为、环境交互、游戏难度调整到视觉效果和剧情互动，让悟空的代表角色 NPC 天命人拥有七十二变的能力。AI技术在配音方面的应用日益广泛，利用语音合成技术生成个性化、情感化的配音效果，使得AI配音与真人配音几乎难以分辨，大大提升了游戏的沉浸感。

2024-09-18 13:49:35 1049 1

原创 NCMMSC-CNVSRC 2024视觉语音识别竞赛圆满落幕

当前，唇语识别的研究方兴未艾，虽然在独立词、短语等识别上取得了长足进展，但在大词表连续识别方面仍面临巨大挑战。为此，清华大学在2023年发布了 CN-CVS 数据集[1]，成为首个大规模的中文视觉语音识别数据库，为进一步推动大词表连续视觉语音识别 (LVCVSR) 提供了可能，并于同年举办了 CNVSRC 2023 竞赛[2]，推动了唇语识别在中文领域的进展。本次竞赛吸引了45支海内外队伍参赛，历经近三个月的角逐，西北工业大学、内蒙古大学、武汉大学等队伍表现突出，名列前茅。内蒙古大学团队代表线上技术分享。

2024-09-02 10:42:35 820

原创轻松“拿捏”巴黎奥运，AthleteGPT的背后都有什么技术支撑？

这些数据不仅需要包括各大国际语言的标准发音，还需要涵盖不同方言和口音的语音样本，才能更好的提高语音识别模型的准确性和鲁棒性。这些模型的性能依赖于语音数据的多样性和规模，是否包含足够多的语种和说话人，以及标注精度是关键。AthleteGPT能够理解和处理来自世界各地、使用不同语言（包括不同方言及口音）的运动员的语音输入，并快速且准确的提供多语种信息，其背后的训练数据是多语种语音识别数据。通过快速准确的语音识别，AthleteGPT可以即时响应运动员的提问，减少等待时间，实时的语音响应让使用体验更加流畅自然。

2024-08-12 18:48:54 556

原创 AI+奥运，运动视频数据集助力裁判更精准识别精彩瞬间

例如，针对网球、跳水、田径等比赛的智能频闪分析，帮助观众更好地理解运动员的动作和生物力学状态。通过精准捕捉和实时分析比赛数据，不仅为裁判提供参考，减少人为误判，还提高了判决的透明度和公信力，确保比赛的公平性和公正性。奥运会作为公平、公正的国际顶级舞台，每一场比赛分数都关系着选手的命运，随着AI技术的发展，AI在辅助赛事判决中发挥着越来越重要的作用。通过这些领先的AI技术来提升比赛的公平性和观赛体验，更好的诠释了奥林匹克运动会和平、尊重、友谊和卓越的精神，而这些技术的背后依赖于海量高质量的训练数据。

2024-08-02 11:13:05 859

原创多语种语音合成数据，拓宽语音大模型边界

此外，还支持多音色、多风格、多情感，让模型能够覆盖多样化的内容表达和使用场景，更加贴近真人的自然表达。通过高标准的设备配置和录音环境，确保语音合成数据的高质量，为创建自然流畅、高保真的语音合成系统提供了坚实的基础。特别是在 SFT 过程中，精标语音合成数据是决定模型性能和质量的关键因素之一，高质量的数据才能更好的提升语音合成系统的表现。，包括阿拉伯语、德语、法语、俄语、日语、韩语、葡萄牙语、西班牙语、意大利语、荷兰语、芬兰语、丹麦语、瑞典语、挪威语、捷克语、波兰语、越南语、蒙古语等。

2024-07-30 16:19:37 1224

转载 CNVSRC 2024 中文连续视觉语音识别挑战赛 Leaderboard 开放

当前，唇语识别的研究方兴未艾，虽然在独立词、短语等识别上取得了长足进展，但在大词表连续识别方面仍面临巨大挑战。为此，清华大学在2023年发布了 CN-CVS 数据集[1]，成为首个大规模的中文视觉语音识别数据库，为进一步推动大词表连续视觉语音识别 (LVCVSR) 提供了可能。在提交结果的同时，参赛队伍需以论文形式提交系统技术报告。本次赛事以 CN-CVS 中文视觉语音识别数据库为基础数据，评估在录音室朗读 (Reading) 和网络演讲 (Speech) 两类场景下的 LVCVSR 系统的性能。

2024-07-02 12:24:45 280

原创数据开源｜GigaSpeech 2：三万小时东南亚多语种语音识别开源数据集发布

针对多语言领域仍存在的语音识别性能较差、可用高质量标注数据缺乏等问题，我们提出了利用 in-the-wild 无标注音频，构建高质量大规模语音识别数据集的新范式，制作出面向真实场景的大规模、多领域、多语言的语音识别数据集 GigaSpeech 2。GigaSpeech 2 在主题上涵盖了多样化话题领域，包括农业、艺术、商业、气候、文化、经济、教育、娱乐、健康、历史、文学、音乐、政治、两性关系、购物、社会、体育、科技和旅行。2）在印尼语和越南语上，我们的系统与现有的基线模型相比表现出具有竞争力的性能。

2024-07-02 12:21:45 2411 1

原创解锁 GPT-4o 背后数据带来的情绪价值

多模态数据涵盖文本、图像、音频、视频等，这些数据的收集和标注过程非常复杂且耗时，例如，视频数据需要逐帧标注画面中的物体、动作和背景环境，音频数据需要精细标注说话者的情感、语气和背景噪音等。当前的 AI 主要通过分析语言和语音的模式来“理解”情感，如通过改变语调和语速来表达快乐或悲伤，但这些表达往往缺乏人类的微妙和复杂性，无法完全复制人类的情感丰富性和自然流畅性。在客服、教育、娱乐等领域中，能够提升语言模型在情感识别和生成方面的能力，提供更加丰富和个性化的用户体验。，涵盖中文、泰语、越南语等多语种。

2024-05-31 18:56:59 1589

原创 GPT-4o来了，超拟人语音合成系统的关键都在这里

GPT-4o 作为一款人机交互的先进大模型，融合了文本、语音和图像三种模态的理解能力，其响应速度之快、情感表达之丰富以及对人类行为的深刻理解，都标志着人机交互领域的又一次飞跃。然而，直接使用这些数据训练TTS模型可以更直接有效地学习如何表达情感、语气等副语言特征，简化系统结构，提高数据的一致性与质量，增强模型的泛化能力，并减少对外部系统的依赖。情感的自动检测是通过NLP技术实现，如情感分析，但如何将这些情感映射到具体的声音表达上，如语调的高低、语速的快慢及音量的强弱，仍然是AI研究中的前沿问题。

2024-05-15 18:21:40 1564

原创第二届视觉语音识别挑战赛 CNVSRC 2024 启动

为此，清华大学在2023年发布了 CN-CVS 数据集[1]，成为首个大规模的中文视觉语音识别数据库，为进一步推动大词表连续视觉语音识别 (LVCVSR) 提供了可能。本次赛事以 CN-CVS 中文视觉语音识别数据库为基础数据，评估在录音室朗读 (Reading) 和网络演讲 (Speech) 两类场景下的 LVCVSR 系统的性能。由 NCMMSC 2024 组委会发起，清华大学、北京邮电大学、海天瑞声、语音之家共同主办的第二届中文连续视觉语音识别挑战赛 CNVSRC 2024 即日启动，诚邀参与报名。

2024-05-15 18:12:12 733

原创 Whisper、Voice Engine推出后，训练语音大模型的高质量数据去哪里找？

只有这样，训练出的模型才能在实际应用中展现出对各种语音变体的高度敏感性和强大的识别能力，从而使语音大模型更好地适应中国复杂的语言环境，让科技更好地服务于社会和文化的多样性。为了构建能够有效识别这些不同语言变体的模型，就需要获取广泛而深入的数据，这意味着不仅要涉及北方的官话、南方的吴语、粤语、闽南语等主要方言，还要覆盖更多地区特色明显的小众方言。在普通话成为全国性官方语言的同时，各地的方言和地方口音依旧扎根于人们的日常生活中，它们携带着地域的特色和历史的印迹，为语音识别技术的发展带来了挑战。

2024-04-29 14:55:23 745 1

原创智慧教育需要什么样的语料？

在智慧教育领域，通过高质量的ASR平行语料数据研发团队能够更好的提升平台算法能力，以更加科学和精准的方式评估学习者的语言学习进展，提供个性化的反馈和指导。更进一步，能够更好的促进教育资源的均衡分配，让不同地区和背景的用户获得高质量的语言学习资源。海天瑞声高质量语音平行语料包含了多种语言及其对应翻译的语音和文本数据，覆盖多语种和方言，满足全球化语言学习需求，为不同文化背景的学习者提供便利。提供准确的方言语音与标准语言文字的对应关系，使模型能够学习特定表达和用法，更准确地识别和翻译方言。

2024-04-12 17:48:33 545

原创 Sora和ta背后的数据

我们知道视频的像素空间本身含有大量的冗余信息，比如相邻像素格子的取值往往是相似的，潜空间是一种非常好的处理高维复杂数据的方式，同时我们还要保证解码的时候能够从潜变量还原出原数据，那么合适的压缩比就非常重要，压得太多还原出的数据质量就会变差，具体压到多少维度合适这是个工程问题，需要我们通过实验试出来。从官方发布的视频demo来看，Sora只需要输入包含“构成元素、环境、行为及发生顺序、视频风格”等关键因素的Prompt（提示词），就能生成不同风格的高清、连贯，且具有丰富运镜和转场的60s视频。

2024-03-22 18:13:35 1060

原创红蓝对抗，检测大模型可靠性的重要方式

另一方面海天瑞声拥有专业的标注团队，可以作为红蓝对抗的人工专家，构造一系列挑战性的问题，发现和修复模型的漏洞或弱点。促进更准确、更可信的大模型的发展和落地。为此，需要不断完善攻防策略，将安全性整合到模型设计中，通过跨学科合作，确保模型在提供高效服务的同时，也符合社会的伦理标准和法律规定。因此，红蓝对抗对于确保AIGC大模型的安全、可靠、公正和符合道德的运行至关重要，同时也有助于推动AI技术的进步和发展。这通常涉及持续的模型训练和调整，以及制定更加严格的策略和准则，以减少模型生成不当内容的风险。

2024-01-31 15:06:44 1016

原创 Midjourney V6 如何成为创意者的灵感源泉

这意味着数据收集和标注过程需覆盖多样化的图像和文本内容，从而让模型学习并理解各种复杂的视觉和语言信息。只有在这种全面、细致的数据支持下，模型才能有效地将文本描述转换为相应的图像，以满足各种创意和应用需求。除了图片质量的显著提升外，还能够更准确地理解用户的提示指令，生成更符合预期场景的高清图片。整个过程从文本输入开始，通过一系列的处理和转换步骤，最终生成与文本内容相关的图像。: 经过训练的模型，用于根据理解的文本内容生成相应的图像。: 这是整个框架的核心，涉及到文本理解和图像生成的技术。

2024-01-24 14:03:33 504

原创提升会议体验：大模型赋能的语音识别技术

通过利用这些数据进行深入的训练和测试，可以显著提升语音识别系统在处理多说话者、多语种会议环境中的性能，从而推动整个语音识别领域的发展。尽管语音大模型可以为会议场景的语音识别带来许多潜在的优势，但这些模型也需要域内的会议场景的数据来迁移和自适应，让Whisper适配于多说话人语音识别的应用场景和声学环境。尽管语音大模型如Whisper在会议场景的语音识别中展现出巨大的潜力，但为了使这些模型在多说话人语音识别应用中达到最佳性能，它们往往需要针对特定会议场景的数据进行迁移学习和自适应调整。

2023-12-21 15:06:54 1611

原创 NCMMSC-CNVSRC 2023视觉语音识别竞赛圆满落幕

视觉语音识别，也称唇语识别，是一项通过口唇动作来推断发音内容的技术。12月9日晚，NCMMSC-CNVSRC 2023 学术研讨会在苏州召开的第十八届全国人机语音通讯学术会议（NCMMSC 2023）举办，会上公布了本次视觉语音识别竞赛 CNVSRC 2023 的获奖名次，在现场清华大学及各获奖团队进行精彩分享。研讨会中，清华大学王东老师主持技术交流会，海天瑞声副总经理、COO李科开场致辞并和语音之家创始人&CEO卜辉共同为2个赛道的获奖队伍颁奖，清华大学陈琛同学分享了基线系统与技术报告。

2023-12-18 11:55:04 337

原创情感语音，为AI伴侣注入“灵魂”

例如: 工作、旅行、教育，电影、音乐、爱好，体育、健康、地理、国家等。她推出了Caryn AI，这是一个基于GPT-4 API接口的AI聊天机器人，具有她的声音、言行和个性。一个人找到一个符合自己所有喜好的定制伴侣，这在现实生活中是无法实现的，但借助AI，这个愿望在虚拟世界中成为可能。为了能够进行无限的互动，包括发送书面消息、语音笔记，以及扩大范围以获取女友的照片和视频，用户则需要支付费用。当你高兴的时候，虚拟人需要为你高兴。悲你所悲，喜你所喜，真正的情感抚慰和陪伴，就需要这种情绪化的聊天技巧。

2023-12-18 11:52:38 319

原创 AI数字人技术深度赋能电商直播

只需几分钟的训练素材视频和1000美元成本，品牌方就能实现全天候直播售卖产品。来源：MIT Technology Review文章，小冰 (左右);硅基智能 (中)麻省理工科技评论发布的文章 “Deepfakes of Chinese influencers are livestreaming 24/7” 中提到上述内容，让全世界看到了中国的AI数字人技术如何应用于电商行业中，并拥有着怎样巨大的降本增效优势。近年来，随着直播行业的兴起，为电商行业注入了增长新动力。

2023-12-06 14:15:21 368

原创狙击ChatGPT，马斯克的Grok来了

拥有 330亿参数的 Grok，在GSM8k (中学数学词问题)，MMLU (多学科多项选择题)，HumanEval (Python代码补全任务)，MATH (数学：用LaTeX编写的中学和高中数学问题) 项测试中，都展示出了强大的性能，超越了其计算类别中的所有其他模型，包括ChatGPT-3.5和Inflection-1。具有情感的文本、语音或者其他多模态数据的采集需要专业的团队进行标注，海天瑞声能够提供情感相关的数据服务用于大模型的训练和微调，欢迎联系我们了解详情。幽默常常与特定的文化和语境相关联。

2023-11-20 15:27:24 249

原创 ChatGPT多模态功能All in One

此外，在会议上还推出了ChatGPT的自定义功能，用户可以无需任何编程知识，便可根据特定需求打造个性化的ChatGPT版本，称之为GPTs（多个GPT），这将作为即将推出的GPT商店（GPT Store）的一部分，实现人人都能零代码打造专属的ChatGPT。ChatGPT-4 与 DALL-E 或类似图像生成模型的集成可以实现无缝体验，用户可以在与 ChatGPT-4 的对话中描述图像，然后系统可以使用该描述来使用单独的图像生成图像，图像生成模型。这使得它能够提取当前信息，为用户提供更准确和最新的响应。

2023-11-08 10:38:25 1127

原创 CNVSRC 2023 中文连续视觉语音识别挑战赛提交系统开放

CNVSRC 2023 设计特定说话人视觉语音识别（T1）和多说话人视觉语音识别（T2）两个任务，前者关注对某一特定说话人进行大数据调优后的性能，后者关注系统对非特定说话人的基础性能。包含43名说话人的音视频数据，每人的数据量接近1小时，其中每个人的三分之二数据构成开发集，剩余数据构成测试集。另20名说话人的数据来源于网络的演讲视频，单条数据时长较长，环境和内容较为复杂。包含一名说话人超过100小时的音视频数据，数据来源于网络视频，其中十分之九的数据构成开发集，剩余十分之一的数据作为测试集。

2023-11-01 10:37:48 182

原创 Data-Centric AI 以数据为中心的人工智能

它由五个子目标组成，包括收集数据，用于添加信息标签的数据标记，用于清理和转换数据的数据准备，用于对原始数据做更further的processing，用于在不收集更多数据的情况下增强数据多样性。以数据为中心的AI不仅要求数据的数据大而且要求数据的质量高，需要专业的数据公司把控质量。数据的关键性日益凸显，特别是近年来大型模型的发展，如上图ChatGPT迭代过程所示，训练所需的数据不仅在质量上有所提升，数量也呈现爆炸式增长。指的是数据降维，其主要目的就是在保留数据的基本信息的同时减少给定数据集的复杂性。

2023-11-01 10:28:07 818

原创数据清洗：大模型训练前的热身

经过清洗后的原始数据，约仅有1%成为语料库中的数据。

2023-10-25 12:24:50 1404

原创 ChatGPT升级版本GPT-4V(ision)支持多模态语音和图像

对话内容涉及明星、电脑及软硬件、教育、娱乐消遣、家族、美食、交友、健康、日常生活、婚姻恋爱、电影、音乐、新闻、宠物、时尚购物、社交、运动健身、旅游、电视节目、天气和工作。从他的回答可以看出，他会很多语种，但是对比普通常见的英文，汉语等大数据量的语种，其小语种的识别和合成准确率还是有差距，这也反应了一个事实：数据规模和质量决定 AI 模型的性能。由于小语种数据短缺，发音的特异性和语言标注较难等原因，导致ChatGPT对于小语种的语音识别和合成并不是非常的准确。这强调了小语种数据的精确标注和采集的重要性。

2023-10-17 16:49:40 572

原创 AUTO-AVSR 自动标注辅助下的视听语音识别

第一阶段为一个标注生成系统。对于LRS3，通过所提出的方法训练的仅视觉模型具有19.1％的WER，仅次于使用26倍训练数据的ViT3D-CM系统（WER为17.0％）作者提出了一种简单而有效的方法，通过使用预训练的ASR模型自动转录未标记的视频数据，从而扩展音频-视觉数据以用于语音识别。最近，ASR、VSR 和 AV-ASR的性能得到了显着提高，这主要归功于更大的模型和训练集的使用。论文作者提出使用开源的预训练语音识别模型去自动标注不含标签的数据集，然后使用这些标注后的数据去增广AVSR的训练数据。

2023-10-11 16:16:23 469 1

原创 CNVSRC 2023 中文连续视觉语音识别挑战赛评测集发布

CNVSRC 2023 设计特定说话人视觉语音识别（T1）和多说话人视觉语音识别（T2）两个任务，前者关注对某一特定说话人进行大数据调优后的性能，后者关注系统对非特定说话人的基础性能。包含43名说话人的音视频数据，每人的数据量接近1小时，其中每个人的三分之二数据构成开发集，剩余数据构成测试集。另20名说话人的数据来源于网络的演讲视频，单条数据时长较长，环境和内容较为复杂。包含一名说话人超过100小时的音视频数据，数据来源于网络视频，其中十分之九的数据构成开发集，剩余十分之一的数据作为测试集。

2023-10-11 16:09:13 351 1

原创覆盖100种语言的多模态语言翻译模型 SeamlessM4T

与普通的 UnitY 模型相比，(1) 从头开始初始化的核心 S2TT 模型被预先训练的 X2T 模型取代，以联合优化 T2TT、S2TT 和 ASR，(2) 浅层 T2U模型（在 Inaguma 等人中称为 T2U 单元编码器和第二通道单元解码器）被替换为具有 6 个 Transformer 层的更深层的基于 Transformer 的编码器解码器模型，(3) T2U 模型也在T2U 任务而不是从头开始训练。达到了新的最先进水平，在翻译到英语的语音到文本翻译上，BLEU分数比以前的模型提高了20%。

2023-09-28 10:34:41 1182

原创 CNVSRC 2023 中文连续视觉语音识别挑战赛正式发布

由清华大学、北京邮电大学、海天瑞声、语音之家联合举办2023 NCMMSC特殊议题：中文连续视觉语音识别挑战赛（CNVSRC, Chinese Continuous Visual Speech Recognition Challenge）正式对外发布。

2023-09-20 17:26:38 292 1

原创 AI为什么经常产生幻觉？

对于上述方案中，训练数据的质量是重中之重。除了使用网络爬取的低质量数据，可以使用数据公司标注的高质量，精准数据微调模型，引导大数据训练的大模型的价值取向。如果用于训练 AI 的数据不是最新的或质量较差，AI 可能会基于不准确的信息做出幻觉的决策。例如，让 ChatGPT 列出五个用多项式建模花样滑冰的方程的参考文献，在 ChatGPT 给出的五个参考文献中，有四个是瞎编的，根本不存在。保证训练数据的高质量至关重要，这包括采取多项措施来维护和提升数据的质量水平，以确保AI系统能够产生准确和可靠的结果。

2023-09-12 13:46:28 995

原创数据为什么是大模型性能跃迁的“法宝”

关于训练数据，Llama 2 模型的训练语料库包含来自可公开访问来源的新鲜数据的混合，不包括与 Meta 产品或服务相关的数据。值得注意的是，这些改进包括更强大的数据清理、更新的数据混合、通过增加总标签来扩展训练、上下文长度加倍以及利用分组查询注意力 (GQA) 来增强大型模型的推理可靠性和可扩展性。然而，大量的计算要求阻碍了 LLM 的发展。在数据集构成上，DOTS-NLP-216 包含了对真实场景的对话采集，和高度还原真实场景的模拟对话这两种方式，来兼顾了分布的代表性、多样性和样本规模。

2023-09-11 11:15:00 218

原创驱动Llama 2提升效果的关键是什么？

去年，ChatGPT为全球人工智能的发展打开了新纪元。大语言模型（LLM）瞬间成为各大互联网公司争相追捧和追逐的蛋糕。全球进入到生成式大语言模型的军备赛中。当大家沉浸于讨论ChatGPT的的收费标准，是“$0.002 per 1k tokens”，每1000个tokens需要花费0.002美元，是否值得投资的时候....近期，Llama 2打开了AI大模型全球共享的新格局。此版本包括模型权重和用于预训练和微调的Llama语言模型的起始代码，参数范围从70亿到700亿。

2023-09-07 11:30:00 142

空空如也

空空如也