智领云彭锋:驾驭大模型浪潮,落地大模型企业级服务

智领云LLM EDS,可多篇文档对比,精准回答问题

在大部分人眼里,人工智能——特别是生成式AI,仅仅用了一年左右的时间,就从对未来的幻想演变为现实中汹涌的洪流。但对于在AI、云、大数据行业深耕多年的彭锋博士来说却并非如此。

从神经网络到大数据

早在2000年赴美攻读博士学位之际,彭锋就开始了关于AI的研究。最早接触到的就是神经网络和自然语言相关的技术,并首次参与了自然语言处理中的问答系统的研发工作。

a7e0b999f82ddc46ae8b35fa496ad477.jpeg

智领云CEO彭锋

“没有大数据,没有分布式计算,只有一台工作站能跑几百个节点的神经网络。” 彭锋表示,彼时的神经网络受限于硬件资源和数据规模,其效能较为有限,但理论基础和思路都已经具备。2005年之后,随着深度学习尤其是卷积神经网络的崛起,大数据和分布式计算能力不断增强,GPU运算性能显著提升,AI行业不断创新,在2015年之后逐步迈入主流市场。

彭锋的第一份工作是在美国第四大搜索引擎Ask.com任职,该搜索引擎的特色与今天的生成式AI很像,主打自然语言问答功能。虽然市场份额仅为Google的十分之一,但每天也有千万级甚至上亿的访问量,这证明了用户对自然语言交互需求的普遍性。

彭锋的团队负责开发大规模分布式处理系统,应对Ask.com的海量数据挑战,并在行业内率先实践了各种创新的数据技术的应用,如采用了刚刚诞生的Hadoop技术,建立了当时在硅谷来说也可排入前列的Hadoop集群——这些技术后来也成为大数据产业的基础。

此后的彭锋在Twitter工作了一段时期,同样负责Twitter大数据平台的建设。这期间,彭锋深刻意识到云原生技术和分布式处理将成为企业IT架构转型的必然趋势,诞生了创建云原生大数据基础设施的理念。

“我们在2017年开始在国内推广云原生大数据平台,”带着这一理念,彭锋回国创业,并创建了智领云,独立自主开发云原生数据流水线技术,可以直接在Kubernetes中处理企业的大数据,并与国内道客云、博云、青云等头部Kubernetes厂商携手合作,为企业搭建基于Kubernetes的数据平台。

GPT-4的震撼

“虽然有这么多年的从业经验,但GPT-4还是让我相当震撼的。”正是因为了解,彭锋对GPT-4的威力有着更深刻的认知:“这是从我开始学习编程到现在,从业30年来见到的最具颠覆性的一次变革,甚至可能超过互联网带来的影响。”

大模型技术的巨大冲击,促使彭锋去思考大模型与生成式AI与大数据的关系是什么,重新梳理大数据对企业的意义,以及大模型是否可以应用到企业的大数据管理之中。

“智领云团队去年学习了一整年,”彭锋表示,为了更深入的厘清大模型对产业的作用和影响,智领云做了很多探索和尝试,深入思考如何将大模型融入到企业级服务中,而非简单的加入一些对话功能给客户。

“无论是BI报表,还是复杂的数据流程,本质上都是要解答管理问题。” 从第一性原理的角度出发,彭锋表示大数据平台的目的是为了让企业提升运营与管理效率,能够更好地服务客户,实现降本增效。

理论上,这些以前需要大量的人力和时间去整理、核对、分析的工作,都可以通过大模型来替代,比如文档自动化处理,解答管理层、员工、客户的问题等。但大模型的“幻觉”频发,也让大模型的应用遇到了现实的门槛。

“我们要认知到大模型技术的能力边界,才能针对性的更好的应用它。”智领云将大模型视作一个“大脑”,一个决策中心。数据库、Agent构架、K8s容器等,就是大模型的五官、四肢,在现有的云原生数据流水线之上,结合大模型需要的文档数据,可以解决大模型的数据时效性以及幻觉问题,提供各种企业级特性支持,最大化的发挥大模型这个“大脑”的决策能力,

以大模型释放生产力

云原生文档处理流水线解决方案,既是技术上的求解,也是对用户需求的洞察。经过对用户广泛的调查分析,彭锋认为,将企业非结构化文档集成到智能化平台中,是大模型企业服务落地的突破口之一。

“每个企业都有海量的文档,但大部分情况下是无法转化为生产力的。”作为云原生大数据领域的先行者,彭锋非常清楚企业大数据的应用现状,特别是非结构化数据在企业数据资产中既重要但其价值又无法得到合理释放的尴尬地位。

彭锋指出,企业内部数据的处理和应用不同于通用知识解答,需要针对各个行业的特性和具体业务流程进行定制化训练。但以往动辄数百页的手册、说明书、规范等,通篇阅读和记忆难以实现,基于关键字的搜索也无法准确、快速给出需要的解答。

智领云团队结合大模型特点与在大数据领域的经验,在文档预处理环节下足功夫,利用大模型能力对文档进行结构解析和语义分解,确保问题与文档内容精确匹配,解决了传统搜索引擎难以根据问题本质定位答案的痛点。彭锋提到,大模型在实际应用中需要解决诸多工程化难题,如文档版本控制、有效期限管理和权限设定等,这些都是确保大模型服务于企业内部流程时不可或缺的重要环节。

这样为大模型量身打造的文档流水线,可以支持各种上层大模型应用,例如基于内部文档的Retrieval Augmented Generation(RAG)问答体系,基于Agent智能体的工作流自动化,企业知识库及结构化知识图谱建设等。而且,客户可以根据自身需求,通过API功能接入包括ChatGPT、文心一言等市面上所有的大模型产品。从本质上来说,智领云为用户提供的是更好的“应用大模型的能力”

从云原生大数据平台,到大数据流水线,到打造基于大模型的文档流水线体系,智领云始终借力新技术、新手段、新理念,帮助企业实现降本增效,提升运营效率。当然,彭锋深知技术落地并不简单,特别是在满足客户98%以上的准确率硬性要求时,依旧面临极大的挑战。彭锋及智领云团队正凭借其卓越的数据处理能力和对前沿技术的深刻理解,助力企业在数字化转型的道路上走得更加稳健有力。

大模型带来了很多新的机会,智领云最新推出的全新产品--自主研发的LLM-EDS系统,即利用大模型技术来重塑文档管理系统,提高企业处理文档的效率和准确性。让用户用自然语言提出问题,得到具体的答案,获得一种让电脑来辅助思考的能力。LLM-EDS Demo演示如下,如感兴趣可后台留言申请试用。

 - FIN -       

efd8128eb69ce877d35a4bc8f823d622.png

更多精彩推

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值