前言
BPAA算法大赛是2024世界人工智能大会的三大品牌赛事之一,目前已举办三届,今年为第四届。每届大赛都会发布《应用算法模型典范TOP50榜单》,并形成应用算法先进案例库,今年榜单在以往的基础上更增设了S赛道,也体现了大赛对可持续性发展的关注。7月5日,大赛的金、银奖和全场大奖也已经全部出炉。在大模型飞速发展、纷纷备案、落地的当下,算法模型在人工智能产业中,到底意味着什么?算法产业发展在大模型风潮中扮演着怎样的角色?
第四届BPAA算法大赛颁奖现场
在2021年和2022年世界人工智能大会及其品牌赛BPAA算法大赛举办期间,亿欧还曾分别采访过零点有数董事长袁岳两次。第一次采访,袁岳谈了算法产业化进程中的机遇与挑战,当时袁岳认为作为人工智能三要素之一的算法仍被忽视,呼吁社会重视算法模型的产业化发展。第二次采访,袁岳极富创见地讲述了小模型、中模型的概念,认为从小模型、中模型再到大模型,可以看作是模型复杂程度和应用范围的递增关系,只有加强算法模型的投入,才能让垂直大模型更快更顺利落地行业。
零点有数董事长袁岳发言
近一两年观察一线,我们也发现不少客户都对小模型及其集成或者说较小规模的大模型表示认可,认为这些“小模型”专注于解决特定问题,运行时环境相对封闭,对计算资源的需求也更为低廉,因此更具备在垂直场景中落地的潜力。
那么这两三年来,算法模型曾经的被忽视是否发生一些积极的改变?对算法模型的认知与理解,是如何影响垂直大模型落地应用的?作为人工智能走向产业的缩影,算法模型大赛如何发现产业好苗子,并帮助实现“政产学研用”等多主体的协同推进?
正值2024世界人工智能大会举办之际,带着对算法产业化的诸多新问题,我们再次专访零点有数董事长袁岳。此外,为深入了解大赛与算法产业发展,我们还同步对零点有数副总裁许正军、数据智能业务CEO汤灏等围绕特定议题进行采访。
算法模型产业化中,问题往往在于“描述不清问题”
大模型这一年多来的快速进展,加速了数字化、智能化的风起云涌。甚至说,人工智能真正开始改变生产关系、改变生产力,也正是从2023年开始——这一年,大洋彼岸的ChatGPT率先引爆赛道,国产大模型纷纷跟进狂飙。
在2023年时,国产大模型相比于ChatGPT的能力,整体上都是处于跟随状态。但进入2024年,国产大模型开始在某些能力上对比GPT-4有所超越,这不仅表现在各类测试榜单,也表现在很多落地应用中。
许正军表示,近两三年来,算法领域最突出的变化之一就是算法大模型的出现。自2022年11月30日ChatGPT的横空出世以来,算法大模型、尤其是生成式人工智能大模型掀起了算法领域一个新的浪潮。与此前碎片化、作坊式、泛化应用能力弱的“小模型”相比,大模型因其通用能力强因而具有较好的泛化应用能力,同时因不需要重复标注数据因而应用开发效率高等特点。人工智能已进入大模型时代。
零点有数副总裁许正军作圆桌主持发言
当然,当前的大模型行业也存在部分问题,在袁岳看来,目前国内大模型行业,供应端的热度明显比需求端高。他表示,当前算法模型在特定领域的垂直应用,是算法模型发展取得的主要成就,也是未来一段时间大模型产业发展的重点领域。而垂直大模型或者就是他说的中模型,就是必经之路,也是实现模型间互通、打造通用性大模型的初始台阶。这个判断主要基于供应端的情况,目前市场的现状是供应端的热度超过了需求端。与供应端的热情相比,需求端的反应并不那么热烈。
那么,为什么供应端比需求端更加热情?如果需求端没有那么旺盛,会不会反而影响供应端的持续创新?成本与收益预期的不确定性,是需求不够旺盛的原因吗?
袁岳认为,需求端反应不够热烈,有两个突出的原因。首先,无论是企业还是政府的决策者群体,大部分人都还没有完全理解大模型是什么东西管啥用,在解决哪些问题上表现出优势,所以不能准确地表述他们对模型类智能服务的需求。ChatGPT以及部分国内大模型,或许让他们看到某些神奇的大模型应用方式,但他们并没有看到这些应用与自己的业务或实际问题之间有什么关系。正因为如此就产生了第二个问题,目前政府与企业的预算科目里面,不是没考虑算法模型的需要,就是预算投入仅仅是象征性的。
袁岳认为,目前各地需求方大部分工作仍然是数字化的系统开发。在这些基础上,有些人可能会提出一些模型技术的想法。有些甲方甚至表示他们自己应该研发大模型,当每个单位都开始开发大模型时,这种做法就又陷入了当前数字化中各自关门搞事的困局,把大数据改成了小数据,大算力搞成了小算力,大模型搞成了小模型。在这种各自为政的困境中,即使我们能够构建一些模型,但它们并不是真正意义上的大规模应用。在袁岳看来,这就是需求端成熟度较低,受限于自身的部门、单位、行业很难对供应端提出合适的需求,这极大地限制了算法模型产业化的规模和程度。
尽管如此,2023年以来的“百模大战”,使得大模型在供应端依然无比繁荣。但这种繁荣,主要还是数量上的,并不是模型解决问题与覆盖场景上的繁荣。到目前为止,已公开披露的大模型数量已经超过300个。但300多个大模型能够真实落地覆盖的场景,依然非常少。
袁岳将匹配特定场景问题的模型称为小模型,具备某一领域多场景解决问题能力的称为中模型也称垂类大模型,而能够跨领域形成问题解决能力称为大模型。他认为,当前中国市场上的300多个大模型,大部分其实属于小模型或者中模型范畴,具备多领域应用潜力的中模型在国内正逐渐成为主流,并已展现出了可观的专业价值和发展前景。相较于美国,中国的差距在基础大模型能力上,但在特定应用领域的中模型层面,中国则已经展现出一定的独特优势和可预见的发展空间。
零点有数旗下的零点楷模算法模型,本质上就属于聚焦于政务服务垂直领域的中模型或称垂类大模型。而今年的算法大赛,在袁岳看来,中模型的表现尤为突出,无论是在各个具体赛道还是S赛道中,都是中模型表现最为靓丽突出的一年。中模型更容易找到B端和G端(企业端和政府端)的客户,并形成市场购买力。
垂类大模型,关键是找准问题
在行业场景中应用算法模型时,通常需要进行深度定制以确保其能够精确地解决特定的问题。然而,并非所有问题都需要大模型来解决。实际上,许多实际问题可以通过更小巧、更灵活的垂直大模型——也就是小模型或者中模型来有效应对。这些小模型通常需要较少的数据和计算资源,同时能够快速适应特定的应用场景,从而体现出功能与成本管控上的优势。
当然,识别和定义适合小模型解决的场景是一项挑战。这需要深入理解业务需求、数据特性,以及对模型性能和算力资源限制的精确评估。对于当前垂直大模型在很多小场景中应用难的问题,袁岳指出其中的多重原因:
零点有数董事长袁岳发言
首先,面向B端和G端的大模型,不同于面向C端的大模型。C端产品,即使还不太成熟,客户一般愿意试用。但是面向B端、G端的产品,必须以获取客户买单为前提,客户专业要求更高。如果产品存在不成熟的地方,那么在市场推广和获客方面就会面临着比较大的困难。其次,当前的预算和支付体制也有需要改进的地方。例如政府信息化过程中,负责购买信息化软硬件的部门和实际使用的部门,往往并不一致,这就导致买单者和使用者的分离,使用者站在场景需求角度提出的需求,就很可能没有被买单者理解和重视。
袁岳更是总结了中国算法模型拥有较强垂直应用特点带来的问题与机会:首先,这意味着目前算法模型与通用人工智能之间还存在相当大的距离。其次,即如何获取不同部门、不同单位的数据用于支持模型的训练与实际应用,数据调度与融合依然是当前数字系统工作包括算法模型应用中的前提障碍。
最后,就是算法模型建设中各自为政的问题。在垂直应用领域中,为特定的行业开发模型,往往在其他地方也可以复用。例如,在政务管理中,城市运营中的自来水管理、燃气管理、防寒潮和防台风等模型算法,如果将其应用于另一个城市,它们之间的场景适应性一般都能超过90%。但现实却是为了这不到10%的差异,而出现大量各个城市各搞各的开发工作。
对此袁岳提出了一个非常具有想象力的解决思路:那就是实现行业化和类型化的共享式开发;同时,通过建立基础开发图谱和推广共用机制来降低成本、提高效率。比如,开发者如果想要做城市运营的算法模型,那么城市运营应该有一个基本的开发图谱。这个开发图谱如果不能在全国范围内实现,比如在长三角一体化城市联盟范围内,一体化工作协调部门根据各地的特点进行一定的分工,各自开发一部分,当一个地方的完成开发后,其他地方也可以共享你的成果。虽然现在可能无法做到完全开源,但是可以共享彼此的成果,这样在初期开发时,就可以根据基础开发蓝图,实现分工合作。
袁岳告诉记者,在这样的协调机制下,各地的竞争力重点应放在纵向,在需要解决的问题上不断取得新的技术突破和模型精度升级,这就是袁岳特别看重的“实现行业化和类型化的共享式开发”。非此,则大家看起来都很忙,都在投入研发,其实大家都在重复做类似的初始水平的事情,听起来都在搞大模型,其实谁也不容易搞大。
算法开发往往离不开对数据的处理,这也涉及当前比较火热的数据资产入表。对于数据资产入表,袁岳比较冷静。他认为,数据资产入表是指你拥有和联系的数据资产,这在某种程度上梳理规范了你在数字经济发展中具备的一些资源能力,从财务意义上呈现了其价值。但实际上,自动化分析和算法模型化有助于我们更好地理解这些数据资产的用途,提高它们的使用频率,而且还能发现其他数据对我们的用途,以及让我们数据资产对他人的用处。总而言之,数据资产入表与算法模型产业化相辅相成,共同支持数据加持更有效的事情。
大模型要解决现实场景中的问题。那么,如何找到这些问题呢?袁岳指出,在垂直大模型应用中,有很多问题识别方式。首先,作为问题管理的一线主体,无论是领导层还是经营层,都需要面对所谓的“tough question”,即需要解决的困难问题。另一方面,通过消费者反馈的方式,我们可以定义他们所面临的关键问题。例如,对于酒店企业来说,可以通过网络或电话端投诉发现存在问题,12345政务服务便民热线和政务服务大厅也可以发现大量需要解决的热点、难点、重点和新点问题。
而算法模型团队,可以从类型、频率、差异、新旧程度和反复出现程度等方面来分析反馈问题。通过设计的算法模型,在海量的投诉与咨询信息中,应用问题过滤器或问题预警器,快速发现、挖掘与遴选出关键问题,并进一步判定解决问题的难度和条件,根据问题的性质、内在结构与关键切入点来确定所采取的解决方案中措施的优先级,设定解决行动的先后顺序和轻重缓急。
BPAA算法大赛与算法产业化发展,互相促进
零点有数数据智能业务首席执行官汤灏告诉记者,当前的算法模型产业发展,正从单一算法往多种算法的融合发展,将不同种算法进行融合,形成算法丛、算法包、算法集是未来的趋势。比如LLM+agent就是典型的将多种技术进行融合的典范。
而BPAA算法大赛从2021年至今,已经举办了四届。在促进算法模型产业发展的过程中,大赛能够起到怎样的作用呢?大赛如何呼应算法产业的发展趋势?零点有数副总裁许正军告诉记者,通过BPAA算法大赛这样的活动,汇集了国际算法资源,传播了算法实践标杆,培育了算法模型典范团队,营建了算法产业生态,也打造了全球算法高地。过去的三届BPAA共汇集全球15个国家60多个城市700多支团队参与,而到本届大赛参与团队即将破千,BPAA也协助WAIC共同推进了上海人工智能算法创新生态构建和算法产业发展。
BPAA算法大赛项目团队路演照片(部分团队)
BPAA算法大赛连续举办的四年,也是算法模型技术发展最快的四年,大赛的榜单设置从公共算法、金融算法、医疗算法、工业算法、商业算法五大赛道到去年新增的X赛道、今年新增的S赛道等,一直都与最新的技术趋势相呼应。那么,大赛的变化如何服务好项目的变化?
袁岳表示,本次大赛的核心任务是推动算法模型的应用发展,优化数字经济与数字治理的内容侧建设。这不仅关乎需求侧,也关乎供给侧。需要让各方更加重视算法模型的价值。在大模型受到广泛关注的背景下,无论是政府还是企业应用者,都需要提高对模型价值的认知程度,并在预算和资源支持方面达到新的水平。
零点有数希望通过集群展示的方式,让大家更好地了解算法模型的价值。同时,通过分赛道、分类别的方式推动大赛,可以让大家更加清晰地认识到这些算法模型在哪些方面有用,以及如何使用它们。这也是一个展示实力、进行PK的绝佳机会。
大赛也有助于吸引更多的应用者参与采购,甚至在这批优秀的算法团队中,通过公开招标的方式来采购应用。零点有数会考虑在普陀区进一步思考实践这种服务模式,以便让优秀的算法团队能够更好地与需求方建立联系。
那么,从新质生产力的角度,怎样的项目,更匹配新质生产力的概念?袁岳表示,从数字技术的角度来看,智能化技术代表了数字技术中最前沿的类别,而算法模型技术更是其中最为丰富多样、最具一线挑战性和最能被检验成效的类别。BPAA大赛明确以赛道形式展示入围的算法模型项目及其服务场景,这一做法清晰明了,不论是今年新增的S赛道还是去年新增的X赛道,核心参与模型实质上都是在垂直领域问题指向较清晰的中模型范畴,有明确的新质的生产力气质。
对于目前算法产业发展存在的不足,袁岳也非常坦率地作了分享。
比如,无论是企业还是政府,对于算法模型的预算基本上都没有成为常规科目。这意味着,算法产业的热度还有些虚,因为愿意为算法模型开发服务买单的还算是先锋客户。“如果你是一个做算法模型的人,既拿不到投资又拿不到订单,那么你很难坚持下去。这就是为什么,找不到用户的大模型企业纷纷倒闭或者出现危机的原因。”
袁岳也呼吁,监管部门要理解大模型产业发展的快速性,避免大模型备案跟不上进化。他表示,备案本身应该是一个简单的过程,但目前我们的备案制度过于复杂。严格审核的过程,一方面有助于增强备案的权威性和可靠性;但另一方面,这也导致了备案项目从提交到发布的周期变得很长,与快速迭代的需求不太匹配。
关键人才的培养,需要行业与教育界共同努力
用算法模型技术改变传统的工作方式与流程,就需要发现和培养更多的人才。那么,BPAA算法大赛是为了发现怎样的人才?行业需要怎样的人才?
对于这个问题,袁岳讲述了成熟算法模型发展必须经过的四个关键环节:
第一,问题场景的确定与最佳实践的筛选:这是模型构建的起点,需要开发者深入理解特定领域,并从中筛选出最佳实践案例。例如,在连锁店铺管理中,识别并学习那些表现最佳的店铺;在特定管理案例中,提炼出最优解决方案。这一环节要求我们不仅要对业务有深刻的理解,而且要能够充分接触并利用业务资源和数据。
第二,关键规则的提炼:在这一环节中,无论是案件侦破、障碍识别还是分析匹配,关键在于在过往工作经验中提炼出最有效的方法和规则。许多专业人士擅长专项工作,但他们难以清晰地表达和提炼工作的过程。企业家可能在经营上颇有建树,但要他们将经营智慧转化为可传授的规则则需要专业的咨询能力。因此,从事垂直领域模型构建的人才,不仅需要具备行业知识,更要有将信息提炼和转化的能力。
第三,架构设计:当业务规则被提炼出来后,接下来的任务是将这些逻辑上的业务规则转化为技术上可计算的规则。这需要架构师将关键命题、它们之间的关系以及权重等转化为数学公式,完成从规则化到模型化的转变。
第四,软件实现与测试优化:算法工程师将模型公式开发为软件,并通过持续的训练和实测不断调参和提优。
袁岳表示,为了确保整个模型构建的顺利进行和算法模型的产业化落地,至少涉及上述四种关键人才的配合。
许正军则进一步认为,由于垂直大模型专注于特定领域,如金融、医疗、教育、法律等,对具有行业背景知识的人才需求也在增加。这些人才不仅需要了解AI技术和大模型的工作原理,还必须熟悉行业的具体需求、术语和流程。这也就意味着在以前从事算法研究的数据科学家、机器学习工程师、AI研究员、伦理与合规等专家基础之上,至少再需要三类人才参与进来,这些人需要同时具备AI技术和行业知识:一是解决方案架构师。负责设计并实施AI解决方案,他们需要理解客户的具体业务需求,将AI技术与业务流程相结合,以设计出有效的垂直大模型应用方案;二是人工智能训练师。负责指导AI模型学习、调整模型以适应特定场景需求;三是产品管理和用户体验设计师。扮演着让垂直大模型真正落地并被用户接受的关键角色。
总之,垂直大模型的发展不仅要求人才具备深厚的行业知识和专业技能,还需要他们具备跨学科合作的能力和持续学习的态度。这种变化促进了AI领域内新型职业的出现,同时也对现有教育和培训体系提出了新的挑战。对于一些高度专业化的业务领域,传统的教育体系可能尚未能提供相应的实景课程与实操能力,例如对业务规则的提炼这样的工作,只能期待产业组织与业内专业机构来填补这一空白。比如算法模型软件开发是一种较为精微开发,目前的学校教育基本上只能提供系统开发人才,普遍缺乏精微开发所需的人才。而能将业务洞察和技术转化兼容的符合人才则完全空白,因此在算法模型产业化道路上无人可用的问题其实是非常突出的。
不过,改变正在发生。零点有数专家发现,在海归人才与前沿算法模型团队的带动下,有不少团队在智慧医疗、智慧管理、金融领域的风险管理、信用管理等领域使用了大量的算法。例如,在工业领域中,工业算法、自动检测和自动化生产线等也大量使用了算法。像宝武集团宝信软件旗下宝信研究院的算法团队,在钢铁行业的工业算法中拥有较大的算法模型量。算法团队做的是什么事情?就是将钢铁场景中,比如一些钢材十分依赖一线操作工人们日积月累的经验判断,算法人才就要学会将这些know-how的经验判断,将这些原来很难监测、很难数据化的经验,将经验固化为可以复用的算法模型软件部署到管理系统中,从而大大提高了产业的效率。
目前一些大型互联网公司已经拥有规模庞大的算法模型团队。然而,这些团队更像是一个任务组合,完成一项任务后就会解散,然后重新组建以执行下一个任务,这样做符合算法模型工作量目前还有限的现实,但不利于算法模型稳步产业化的人才累积需要。零点有数在其上市招股书中首次提出垂直应用算法的发展方向,更在2019年的世界人工智能大会上首倡算法产业化的概念,并透过BPAA大赛不断强调人工智能界应重视算法模型的发展与投入,在建设算法模型上有进展才可能看到扎实的人工智能产业的丰满。
BPAA大赛具象地展示了算法模型团队人才、作品、技术产品及其价值,从而推动了算法模型价值的社会认知。首届BPAA之后上海推出了《上海新一代人工智能算法创新行动计划(2021-2023年)》,《广州市数字经济促进条例》也有明确要推动算法产业化的发展,上海的普陀区、北京的门头沟区、广州的海珠区等多地都正式推出了鼓励算法模型产业发展的具体办法,普陀出台了《算法十条》,门头沟区出台了算力+算法产业发展鼓励政策和《算法人才十条》。
袁岳告诉记者:在算法领域,我们见证了一场静悄悄的变革。在过去两年中,更多的数字类创业活动中算法模型项目数量与质量都在上升,即使一些非专业算法类人工智能与数据智能项目也突出算法技术、算法创新与算法工程师的作用。直到2021年,算法模型这样的字眼在即使人工智能类的项目BP中还鲜少被提及。2021年之后,智能类项目、团队、园区不提算法模型就很难说明自己的智能化含量,如果没有深入研究算法,似乎就难以说明其智能属性。甚至在数字化项目团队构建中,拥有算法工程师和模型开发专业人才已成为体现自己核心竞争力的一部分。以参与BPAA项目评价的投资基金为代表,专业投资人和智能类上市公司的产业投资管理者也开始关注且实际投入到算法模型类包括大模型项目之中。算法模型产业化这种从宏观到微观的发展,正持续不断地发生。
结束语
零点有数希望通过集群展示的方式,让大家更好地了解算法模型的价值。同时,通过分赛道、分类别的方式推动大赛,可以让大家更加清晰地认识到这些算法模型在哪些方面有用,以及如何使用它们。这也是一个展示实力、进行PK的绝佳机会。大赛也有助于吸引更多的应用者参与采购,甚至在这批优秀的算法团队中,通过公开招标的方式来采购应用。零点有数会考虑在普陀区进一步思考实践这种服务模式,以便让优秀的算法团队能够更好地与需求方建立联系。