数据开源|GigaSpeech 2:三万小时东南亚多语种语音识别开源数据集发布

“Giga”一词源于“gigantic”,互联网上具有海量音频资源,但语音质量良莠不齐,高质量音频文本对数据十分稀缺且标注成本高昂,特别是在小语种领域。GigaSpeech 是一个非常成功的英文开源数据集,以 YouTube 和 Podcast 为音频来源,提供了上万小时的高质量文本标注语音数据集,获得了广泛关注和应用。针对多语言领域仍存在的语音识别性能较差、可用高质量标注数据缺乏等问题,我们提出了利用 in-the-wild 无标注音频,构建高质量大规模语音识别数据集的新范式,制作出面向真实场景的大规模、多领域、多语言的语音识别数据集 GigaSpeech 2。基于Gigaspeech 2 数据集训练的语音识别模型在三个东南亚语种(泰语、印尼语、越南语)上达到了媲美商业语音识别服务的性能。我们怀揣着技术应当普惠大众的理念,致力于开源高质量语音识别数据集和模型,促进多语言文化沟通。

1. 概述

上海交通大学跨媒体语言智能实验室(X-LANCE)、SpeechColab、香港中文大学、清华大学语音与音频技术实验室(SATLab)、鹏城实验室、海天瑞声(Dataocean AI)、思必驰(AISpeech)、Birch AI、Seasalt AI 共同合作开发了 GigaSpeech 2。GigaSpeech 2 是一个持续扩展的、多领域多语言的大规模语音识别语料库,旨在促进低资源语言语音识别领域的发展和研究。GigaSpeech 2 raw 拥有 30000 小时的自动转录音频,涵盖泰语、印尼语、越南语。经过多轮精炼和迭代,GigaSpeech 2 refined 拥有 10000 小时泰语、6000 小时印尼语、6000 小时越南语。我们也开源了基于 GigaSpeech 2 数据训练的多语种语音识别模型,模型性能达到了商业语音识别服务水平。

2. 数据集构建

GigaSpeech 2 的制作流程也已同步开源,这是一个自动化构建大规模语音识别数据集的流程,面向互联网上的海量无标注音频,自动化地爬取数据、转录、对齐、精炼。这一流程包含利用 Whisper 进行初步转录,使用 TorchAudio 进行强制对齐,经过多维度过滤制作出 GigaSpeech 2 raw。随后,采用改进的 Noisy Student Training (NST) 方法,通过反复迭代精炼伪标签,持续提高标注质量,最终制作出 GigaSpeech 2 refined。

GigaSpeech 2 在主题上涵盖了多样化话题领域,包括农业、艺术、商业、气候、文化、经济、教育、娱乐、健康、历史、文学、音乐、政治、两性关系、购物、社会、体育、科技和旅行。同时,在内容形式上涵盖了多种类型,包含声书、解说、讲座、独白、电影电视剧、新闻、访谈、视频博客。

3. 训练集详情

GigaSpeech 2 提供了两个版本的数据集,分别为 raw 和 refined 版本,适用于有监督训练任务。训练集时长详情如下表所示:

4. 开发集和测试集详情

GigaSpeech 2 开发集和测试集由海天瑞声的专业人员对语音数据人工标注得到,时长详情如下表所示:

主题和内容分布详情如下图所示,外圈表示主题领域,内圈表示内容形式:

泰语

印尼语

越南语

5. 实验结果

我们将使用 GigaSpeech 2 数据集训练的语音识别模型与业界领先的 OpenAI Whisper (large-v3、large-v2、base)、Meta MMS L1107、Azure Speech CLI 1.37.0 和 Google USM Chirp v2 模型在泰语、印尼语和越南语上进行比较。性能评估基于 GigaSpeech 2、Common Voice 17.0 以及 FLEURS 三个测试集,通过字符错误率(CER)或单词错误率(WER)指标进行评估。结果表明:

1)在泰语上,我们的模型展现出卓越的性能,全面超越了所有竞争对手,包括微软和谷歌商用接口。值得一提的是,我们的模型在达到这一显著成果的同时,参数量仅为 Whisper large-v3 的十分之一。

2)在印尼语和越南语上,我们的系统与现有的基线模型相比表现出具有竞争力的性能。

6. 排行榜

为了便于使用和跟踪最新的技术发展,GigaSpeech 2 基于主流的语音识别框架提供了基线的训练脚本,并开放了排行榜,目前提供的系统包括 Icefall 和 ESPNet,后续还将继续更新与完善。

7. 资源链接

GigaSpeech 2 数据集已开放,欢迎大家下载:
https://huggingface.co/datasets/speechcolab/gigaspeech2

大规模语音识别数据集自动化构建流程发布于:
GitHub - SpeechColab/GigaSpeech2: An evolving, large-scale and multi-domain ASR corpus for low-resource languages with automated crawling, transcription and refinement

预印版论文发布于:

https://arxiv.org/pdf/2406.11546

8. 进一步合作

我们是一群试图让语音技术更易于使用的志愿者,欢迎各种形式的合作与贡献。目前我们正在探索以下方向,如果您对某些方向感兴趣,并且认为自己能够提供帮助,请联系 gigaspeech@speechcolab.org。

  • 不同预训练模型的推理架构

  • 增加多样化的数据来源

  • 对语音算法/服务进行基准测试

  • 构建和发布预训练模型

  • 支持更多语言

  • 支持更多任务

  • 制作新数据集

<think>好的,用户现在问的是“长期就业市场不好,怎么办?”。首先,我需要理解用户之前的对话历史。之前用户提到自己从平台运维转数据分析岗遇到困难,几个月没有面试,回复都是不合适。我给出的建议是技能补充、项目包装、精准求职策略等。现在用户的问题更宏观,关注长期就业市场不好的应对策略,可能用户仍然处于职业转型的困境中,或者对整体就业环境感到担忧。 接下来,我需要分析用户可能的深层需求。用户可能感到焦虑,不仅仅是个人职业转型的问题,而是对整体经济形势的担忧,想要知道如何在长期不景气的就业市场中保持竞争力,找到稳定的职业发展路径。用户可能需要实际可行的策略,包括个人技能提升、职业规划调整、心态管理以及财务方面的应对措施。 我需要确保回答结构清晰,分点列出,涵盖不同方面。同时,结合之前的建议,强调如何将现有经验转化为优势,适应市场变化。可能还需要加入新兴领域的信息,比如AI、绿色能源等,帮助用户找到潜在机会。 另外,用户可能没有明确表达的是如何平衡短期生存和长期发展,或者如何在经济下行期管理财务风险,这些都需要在回答中涉及。同时,心理调适的方法也很重要,避免用户陷入消极情绪。 最后,需要保持鼓励和支持的语气,让用户感受到有可行的路径和希望,同时提供具体的行动步骤,帮助用户逐步实施。要避免过于泛泛而谈,而是给出具体例子和资源,比如学习平台、认证推荐、副业思路等,增强实用性。</think>面对长期就业市场的不确定性,我们需要构建"抗周期"的职业生涯体系。以下是分阶段的应对策略,结合未来5年发展趋势: 一、建立动态竞争力模型(DCM) 1. 核心能力三角 $$竞争力 = 技术纵深 \times 业务理解 \times 资源网络$$ - 技术纵深:掌握可迁移的底层能力(如数据分析、流程自动化) - 业务理解:深耕1-2个朝阳产业(如新能源、银发经济) - 资源网络:构建跨领域人脉池(行业会议+在线社区) 2. 抗衰退技能组合 | 领域 | 抗周期技能 | 学习资源 | |------------|----------------------------|--------------------------| | 数字基建 | 云原生运维/AIOps | AWS架构师认证 | | 业务赋能 | 低代码开发/BI可视化 | 钉钉宜搭官方课程 | | 新兴领域 | 碳核算/ESG报告编制 | CFA协会ESG投资证书 | 二、实施"三线并进"策略 1. 主线:现有岗位价值深挖 - 案例:传统运维→智能运维工程师(转型路径) $$运维价值 = \frac{故障预测准确率}{人力成本} \times 业务影响因子$$ - 实施步骤: ① 将日常工作抽象为可复用的知识库 ② 用自动化工具释放20%工作时间 ③ 用腾出的时间开发智能监控插件 2. 副线:创造第二收入曲线 - 低风险方案: ▶ 知识变现:在CSDN开设「运维人的突围之路」专栏 ▶ 技能服务:为中小企业搭建开源监控系统 ▶ 设备共享:出租闲置服务器算力 - 进阶方案: • 开发垂直领域SaaS工具(如电商库存预警系统) • 运营技术类知识星球(年费制社群) 3. 储备线:布局未来机会点 - 重点关注领域: ```python # 未来5年高潜力方向(示例) emerging_fields = { '银发经济': ['适老化IT改造', '健康数据分析'], '产业出海': ['跨境云服务', '多语言运维'], '新型基建': ['东数西算工程', '智算中心运维'] } ``` - 能力储备建议: ✓ 学习东南亚小语种基础 ✓ 获取数据出境合规认证(如DSMM) ✓ 参与县域数字经济项目 三、构建财务安全网 1. 现金流管理公式 $$财务健康度 = \frac{(主动收入+被动收入)}{刚性支出} \geq 3$$ - 实操方案: ▶ 建立「3-6-12」账户体系(3个月活期/6个月理财/12个月定投) ▶ 配置失业对冲资产(如可转债基金) ▶ 发展"睡后收入"(技术文档翻译众包) 2. 成本重构方案 - 技术人降本增效表: | 传统支出项 | 优化方案 | 年节省估算 | |------------|-------------------------|------------| | 技术书籍 | 参与O'Reilly在线订阅计划| ¥2000+ | | 认证考试 | 选择Pearson VUE优惠套餐 | ¥1500 | | 设备更新 | 采用云开发环境 | ¥5000+ | 四、应对长期失业的特别策略 1. 职业生命线管理 - 建立岗位风险评估模型: $$岗位风险指数 = \frac{行业萎缩度 \times 可替代性}{个人不可替代因子}$$ - 预警信号应对: ▶ 参与企业创新孵化项目(展现变革能力) ▶ 主动承担跨部门数字化项目 ▶ 考取组织急需的稀缺认证 2. 灵活就业方案 - 技术人灵活就业矩阵: | 时间投入 | 低技能密度 | 高技能密度 | |----------|--------------------|--------------------| | 短期 | 众包测试 | 架构咨询 | | 长期 | 远程运维支持 | 技术培训IP孵化 | 五、心理韧性建设 1. 认知重构方法 - 用DevOps思维管理职业生涯: ```mermaid graph LR A[规划] --> B[编码] B --> C[构建] C --> D[测试] D --> E[发布] E --> F[监控] F --> A ``` - 每周进行"职业Sprint回顾": ① 完成事项(Done) ② 阻碍因素(Blockers) ③ 下周计划(Next Sprint) 2. 压力转化技巧 - 技术人专属减压法: ▶ 用JIRA管理个人目标(把人生当项目做) ▶ 编写"焦虑日志"程序(Python+情感分析API) ▶ 参加Hackathon式社交(48小时极限挑战) 当前可立即行动的3件事: 1. 启动「100小时计划」:选择1项抗周期技能(如低代码开发),投入100小时达到商业应用水平 2. 创建「机会雷达」:用爬虫监控招聘市场,建立关键词预警(如"运维开发"+"数据分析") 3. 实施「资源杠杆」:将过往工作成果转化为知识产品(如GitHub开源工具包) 记住:经济周期如同技术迭代,低谷期正是升级"人生系统版本"的最佳时机。建议采用敏捷职业发展模式——每周小迭代,季度大升级,用工程师的体系化思维应对不确定性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值