更适配中文的语音大模型来了——
来自中国电信人工智能研究院,AI领域Fellow大满贯科学家李学龙带队,发布首个能听懂30多种多方言混说的大模型。
号称最难方言、“魔鬼的语言”的温州话,也不在话下。
还有超自然的语音生成能力。
在2024智算云生态大会上,星辰语音大模型被官宣发布并开源。
要知道,当前语音模型开源开放本来就少,而针对方言更是特定方言特定模型。
开源且支持30种方言,有且只有星辰这么一个。
作为首个完成大语言模型的研发且开源的央企,中国电信现在又在语音模态领域秀起了肌肉。
首个支持30种方言混说语音大模型
那就来说道此次发布的能支持最多方言的语音大模型,核心功能主要体现在识别上——
它打破了单一模型只能识别特定单一方言的困境,可同时识别理解粤语、上海话、四川话、温州话等30多种方言。
实际上,它早已获得国际权威赛事的能力认证,以及多个实际场景中落地。
它在国际语音顶会INTERSPEECH2024离散语音单元建模挑战赛上,星辰语音识别大模型斩获了语音识别赛道冠军。
同时在**NIST(美国国家标准与技术研究院)**举办的低资源粤语电话Babel语音识别任务上,取得业内最优结果。
并且已经在智能客服、12345热线等场景中落地。
据介绍,星辰语音大模型已在北京、福建、江西、广西等地万号智能客服系统试点应用。它能秒懂方言然后服务用户,日均处理约200万通电话。
智能客服翼声平台也接入了星辰大模型的语音理解和分析能力,实现31省全覆盖,每天处理125万通客服电话。
传统语音识别模型的处理方式,是针对一种方言单独训练一个模型。
这样一方面对运营维护提出了不小的挑战。这就意味着通用语音客服场景下, 需要维护多个方言模型。
另一方面,很难触达更小众的方言,他们数据量本身比较少,标注成本非常高,增强合成挑战大,很难单独训练出比较好的识别效果。
但中国电信不仅发布并开源,性能水平位于业内前列,而且还十分落地,那么星辰语音大模型又是如何炼成的。
我们知道,这背后不仅是大模型训练,还有前期数据准备,后期推理加速等等一整套系统工程,对于企业是技术工程以及资源等综合能力体现。
在官方披露中,我们看到这些信息。
首先在大模型训练上,采用了这两个关键技术:超大规模语音预训练和多方言联合建模。
超大规模语音预训练。
Scaling Law成为共识,那么在大规模参数以及多样性数据集情下,很可能就会出现模型预训练坍缩问题,即输出生成质量下降,变得重复、无意义以及缺乏多样性。
为了解决这一问题,他们提出了“蒸馏+膨胀”联合训练算法,最终实现80层模型稳定训练。据介绍,这一算法是业内首创。
多方言联合建模。
基于离散语音表征,语音识别大模型通过“从语音到token再到文本”的建模新范式,将推理时语音传输比特率降低数十倍。
另外,联合建模使得模型学习到了各个方言之间的共性,显著降低了对新方言标注数据的需求。实验显示,有标注数据需求量降低为1%。
这是星辰语音大模型能率先实现单一模型识别30种方言混说的关键。
这直接解决了部分方言语音难获得、标注成本高昂的难题。传统那种只针对单一方言的识别方言,可能需要十万小时的标注数据量才能实现比较好的效果。但这显然并不适合那些小众方言的识别场景。
而在数据准备上,中国电信AI研究院透露,他们已构建超30种、超30万小时的高质量方言数据库。
在算力基础设施上面,在官宣首个大模型开源时就曾披露过,中国电信作为国内最早进入云计算领域的运营商,积累了大量算力建设和算力调度的核心技术。
有数据算力资源、有技术能力和场景积累,再加上大佬把持,中国电信语音大模型由此得以炼成。
但是大模型多模态,视觉模型正热门的当下,中国电信为何选择方言这个看似“冷门”的赛道发力语音大模型呢?
为什么专为方言推出语音大模型?
在公开采访中,中国电信对这一问题做出了回应。
首先,技术价值驱动。
宏观上看,我国是当前世界上语言资源更丰富的国家之一,拥有五大语系130多种语言。但是当下很多方言正面临着濒危或消亡,有数据统计,有25种使用人口不足千人,有的语言只剩下十几个人甚至几个人会说,这对方言的保护、文化的传承提出更大挑战。
在具体到我们日常的沟通。有这样一组数据值得关注。当前全国仍有约20%的人口尚未普及普通话,沟通效率比较低。这当中甚至还更多聚集在老年人群体,他们还面临着无法触及信息化服务困境。
大模型的技术范式,面对这两大刚需场景,提供了天然的解决出口。
大模型本身就是数据驱动,它能够更高效、系统地对方言进行整理归纳,是方言保护和传承的天然容器,以及极强的泛化能力。一个通用语音模型能同时实现多个任务,比如多语言/多方言语音识别、跨语言语音翻译、语种/情绪识别等,能够轻松覆盖多语种沟通交流。
为了进一步让技术普惠的加速,电信选择了开源的方式。
中国电信人工智能研究院语音大模型负责人李杰进一步解释了这方面的原因。
我们已将语音大模型全面开源,希望联合开发者共建覆盖更多方言的大模型,打破沟通壁垒,让老少边穷地区人们、老人等每个人都能享受到AI时代便利,也呼吁更多专家、方言爱好者及大众用户一起加入守护方言计划,共同传承语言文化,推动AI普惠。
其次,业务需求导向。
作为头部运营商,中国电信最核心的业务场景就是智能客服。“每天都能接到几百万通电话,其中很大比例是方言或者有方言口音的普通话。”真正实践中他们发现,人们都还是更喜欢用方言来进行沟通。
因此语音大模型一面世,就率先落地到这一场景中去创造价值,逐步覆盖更多更广的地区之中。
除此之外,它还在对外输出能力以及更多场景赋能。
比如,大家所熟知的12345市场热线这个公共服务平台。据介绍,语音大模型已经赋能多地市的12345平台让每个客服人员听懂30种方言,更快地理解更多市民需求。
前段时间,语音大模型还应用到了防范校园霸凌中,在某小学防霸凌项目中,它采用亿级参数进行推理,可在嘈杂环境下精准识别关键词进行预报警。
还有它赋能的数字人,已经在多个展会亮相工作,曾在中国国际大数据产业博览会亮相,与康辉同台主持。
最后,战略部署。此举正是中国电信「通用智能」战略部署一环。
而他们一早也提出了自己大模型领域布局:1+1+1+M+N:
1个智算云底座、1个通用大模型底座、1个数据底座、M个内部大模型、N个行业大模型。
最早在2022年12月就已启动了语义大模型的研发,去年数字科技生态大会上,他们发布了千亿参数星辰语义大模型,并相继开源7B、12B、52B大模型。
如今,随着包括语音大模型在内的发布,中国电信其实已经形成语义、语音、视觉以及多模态一整个全模态完备的大模型布局。
而他们最终的目标也很明确:
成为领先的通用人工智能服务提供商。
中国电信在大模型的布局
随着端到端多模态大模型GPT-4o的亮相,通用多模态更成为一种共识趋势。而GPT-5也被爆料说将精通更多小语种和方言……
这实际与中国电信本身技术战略不谋而合。
如果讨论国产大模型玩家,中国电信一定是最为特殊的那个——
不是创业公司,也并非互联网大厂,却最早入局,而且进展频频剑指通用,在业内影响不小。
跟创业公司不同的是,电信有着天然的需求驱动和应用场景。有锤子也有钉子。
只是在纯自研星辰大模型亮相之前,大众对于电信的技术感知并非那么强烈。
实际上,他们背后搭建了一支700人的AI研发团队,70%以上来自头部互联网和AI明星企业。再加上,AI领域Fellow大满贯科学家李学龙加盟,出任电信CTO,并组建中国电信人工智能研究院(TeleAI)。
基于这样的人才储备,他们很快同大模型头部选手们站在同一阵营,并且落地速度贼快。
而同互联网企业相比,作为国产运营商的电信,其实优势则更为明显了。
一方面,运营商有丰富的网络和算力资源,相对来说训练、推理成本更低。尤其在大模型的建设方面,更容易发挥规模的优势。
目前,他们已打造基础模型+行业模型+应用模型的布局,除了自研本身,还采取生态合作的方式,联合头部生态构建了涵盖教育、政务、应急等20多个行业大模型,覆盖全行业500多个应用场景。
另一方面,有庞大的客户群体作为落地基底,以及丰富的2C、2H、2B的信息服务经验,能够更快地推动大模型在各个领域的落地,形成新的经济增长点。
这当中数据累积也构成了他们的核心壁垒。目前,他们已经完成了超500TB文本数据、12亿张图文数据、PB级视频数据的积累。
这些优势使运营商有动力在人工智能领域加大投入,驱动技术进步。
也正因这样的技术和经验底气,他们才能早早确立目标并且有着清晰的时间线规划。
就像最新语音大模型,他们就计划实现首个支持国内333个地市方言和主要少数民族语言(维藏等)的语音大模型。
关于语音大模型的进展,值得期待。
而对于AI的落地,中国电信值得关注。
开源链接:
Huggingface模型:https://huggingface.co/Tele-AI/TeleSpeech-ASR1.0
github代码:https://github.com/Tele-AI/TeleSpeech-ASR
gitee代码:https://gitee.com/Tele-AI/TeleSpeech-ASR
— 完 —
如何学习大模型 AGI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
-END-
👉AGI大模型学习路线汇总👈
大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉AGI大模型实战案例👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
👉AGI大模型视频和PDF合集👈
观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费
】🆓