💖文章内容有点长,建议阅读时长:30min💖
目录
前言
一直都有关注百度世界大会,也非常想去现场看看,由于工作比较忙等原因一直都是在线上观看。
2024年百度世界大会非常荣幸能够作为百度搜索大赛获奖嘉宾到现场观看,能够接触到互联网前言技术非常开心。
百度创始人一直是我的偶像,记得上大学时,就深深被一个百度搜索框震惊,简简单单的一个文本框就像一个百宝箱一样。
了解技术的小伙伴或多或少都能够明白,百度一下这个点击按钮背后是多么庞大技术体系、算法体系、创新体系在支撑。
虽然我不是一名天赋型的技术选手,但是后天的努力我相信也能达到一定的技术深度,百度技术追求也一直是我前进的动力。
百度世界大会
百度世界大会是百度每年面向行业、媒体、合作伙伴和广大用户的最高级别盛会,作为百度年度最重要的战略、技术、产品发布会,
自2006年以来已连续举办18年,为行业搭建起交流前沿技术、碰撞创新思维、洞察未来趋势的重要平台,持续引领中国AI行业向前迈进。
应用来了——百度世界2024
https://baiduworld.baidu.com/m/world/main/2024/index.html?lng=zh
生成未来(PROMPT THE WORLD)——百度世界2023
https://baiduworld.baidu.com/m/world/main/2023/index.html
AI深耕 万物生长——百度世界2022
https://baiduworld.baidu.com/m/world/main/2022/index.html
主题
百度世界2024年的主题是:应用来了。
每年百度都会用这个机会,向大家展示过去一年百度在技术创新方面的最新的成果。
应用来了,是百度对于当前大模型和生成式人工智能时代的一个认知和判断。
大模型持续火热,快两年了,相关的技术以前所未有的速度进行迭代和创新。
从公司、到创业者、再到风险投资,各路人马,大家都在寻找,生成式人工智能时代给予大模型的超级应用。
AI全景图
以下是第三方机构,最近发布的AI的全景图
基本上展现了大模型和生成式AI,在整个爆发的过程中叠加的状态。
首先是OpenAI的ChatGPT,后来百度发布了文心一言,紧接着就是谷歌发布了Bard,后来改名为Gemini。
以英伟达为代表的芯片厂商,和以微软为代表的云计算厂商,首先是最大收益者。
然后开源模型也不敢落后,也奋起直追,也希望在AI时代分得一杯羹。
各类应用层的创业公司也开始获得投资,以及一些传统的软件厂商,他们用AI开始重构自己的产品。
调用量爆发式增长
在过去的两年时间里,大家所期待的这个超级应用还没有出现,这种全球性的大模型的探索和实践,
究竟是一场新的技术革命,还是一轮新的泡沫,百度作为中国人工智能的扛旗者或许能够给出答案。
上面是文心大模型,日均调用量的一个变化的曲线图,到今天11月12日这个数字已经达到了15亿,可以看到,是一条非常陡峭的增长曲线。
这张陡峭的曲线图能够代表大模型应用在过去的18个月当中的爆发式增长效果,也超出了对它的预期效果。
大模型API调用量,一年内涨十倍,也就是从2亿涨到20亿,第一阶段算是成功了。
文心大模型不遗余力地升级进化降本提速,确保了调用量爆发式增长的关键。
行业共识
检索增强成为行业共识
百度本身是做搜索技术,因此在知识增强和检索增强会更加有优势。
检索增强的英文是retrieval augmented generation,逐步成为了行业的共识。
消除幻觉
过去24个月,大模型的最大变化是基本消除幻觉。
刚开始接触大模型的小伙伴都或多或少遇到大模型幻觉的情况,也就是答非所问,或者胡说八道的情况。
在本次大会上提到,在过去的24个月,大模型最大的变化就是基本消除了幻觉。
使用一定的手段基本让大模型消除了幻觉,它是有一定的意义的。
试想一下,如果这个模型,它总是一本正经得胡说八道,就不会有人信你,就不会有应用。
有人说用大模型来写小说,有点幻觉,可能更有意思,更能引人入胜,这个想法是不对的。
即使是文字创作,也需要故事,它前后要保持一致,否则就不是智能。
消除幻觉,能够大大提升AI的回答问题准确性,让AI从一本正经的胡说八道,变得可用、可被信赖。
大模型属于一个概率模型,它生成的内容是有不确定性的,但是在采用了RAG技术后,大模型就会利用检索得到的这个信息,来极大地提高了内容的质量和准确性。
简而言之,检索增强的提升能够有效解决大模型幻觉的问题。
文生图幻觉现象
前面提到,百度在RAG方面很好地解决了文生文的幻觉问题,那么对于图像等多模态的内容呢,同样也是存在幻觉现象。
上面左图是用开源模型生成的一张北京天坛的图片,第一眼看上去确实有点像天坛,但是你总觉得那不对。
其实,真正的天坛是三层的,模型生成的却是四层,这就是比较典型的文生图的幻觉现象,这种幻觉现象,目前仍然很普遍。
所以,对于在多模态大模型基本上没有什么成规模的应用出来,就是因为幻觉问题没有解决,至少没有像文生文那样的这个RAG解决那么好。
在2024年年初,百度决定解决这个图像生成的幻觉问题,因为这个问题不解决,就不会有应用出现。
这个问题看起来可能更简单,甚至更枯燥。
iRAG技术
基于文生图存在的普遍幻觉问题,百度开发了一项颠覆性的技术,叫做iRAG,就是image based RAG,检索增强的文生图技术。
之前,完全基于大语言模型的文生图系统,生成的图片经常有点假,甚至是不合逻辑常理。
百度的iRAG,就是把百度搜索的亿级的图片资源,跟强大的基础模型能力进行结合。
这样就可以生成各种超真实的图片,整体在效果上,是远远超过文生图的原生系统,去掉了机器味。
画图体验
比如:就可以在文心一言输入文本,画李白在长城上作诗,如下,效果还是不错的。
特定物品精准生成
比如,提示词是,请画一张大众揽巡汽车飞越长城的图片,写实风格
这张图片的汽车,跟照片一样的真实,无论是车标还是车型都没有错误,没有变形,它跟这个背景跟长城这个背景的融合度也非常的高。
这就是基于iRAG技术,创作出来的一张图片,它的内容元素画面的气氛都非常的真实,甚至逼近这个实拍的海报,但实拍你车是飞不起来的。
有点像是P上去那样子的感觉,当然你也可以让AI生成这辆汽车在荒野上、在城市中、在各种各样的真实场景当中的图片。
随着AI生成图片的可用性大大提升,应用的空间也就随即打开了。
比如图片在这个品牌宣传场景,以前拍这样一组海报,动辄要一二十万,甚至大几十万,但是现在,这种创作的成本接近于零。
商业价值
iRAG商业价值主要体现在:无幻觉、超真实、没成本,立等可取。
试想一下,如果大众的海报生成的车型长得像丰田,那可就糟心了。
特定人物场景
除了特定的物品之外,我们还可以生成特定人物,跟任意场景、背景进行结合的图片。
比如输入:生成一张爱因斯坦在天坛打卡合影
可以看到很像,真的像是照片照出来的,这个就是完全用iRAG技术生成的。
我们用同样的提示词,用一些开源模型也生成了几张,大家可以做一下比较,有些长得完全就不像爱因斯坦,唯一有一个长得像的,背景缺不是天坛。
可以说,现在在全球范围内,百度的这个iGAG能力都是最领先的。
还可以通过提示词让爱因斯坦,游遍全世界,比如悉尼歌剧院、复活节岛的巨石阵、长城、鸟巢。
闪耀时刻
我们即将迎来,AI应用的群星闪耀时刻。
作为一项基础技术,iRAG在很多领域都有着很好的应用空间。
比如,这个影视作品、漫画作品、连续画本、海报制作等等,AI生图,可以大幅度的降低我们的创作成本。
当基础模型的能力就绪,我们即将迎来AI应用的群星闪耀时刻,每一个应用都是一颗星,每一个应用都将成为改变世界的力量。
主流形态
智能体是AI应用主主流的形态,即将迎来爆发点。
那么AI的应用从哪里来,到哪里去?
下面,从两个大的AI应用的方向来了解,一个叫做智能体,另外一个是产业应用。
百度认为,智能体是AI应用的最主流的形态,即将迎来它的爆发点。
2024年11月,目前全球所有顶尖的科技公司,都很关注智能体,但是像百度这样,把智能体作为最重要的战略方向的并不多。
百度认为做智能体,很想PC时代做网站、或者很像移动时代做自媒体的账号。
不同之处在于,智能体更像人更智能、更像你的销售、像你的客服、像你的助理。(给人无所不能的感觉)
新载体
AI原生时代,智能体是内容、信息和服务的新载体。
智能体可能会变成AI原生时代,内容信息和服务的新的载体,为什么这么说?
一方面,智能体的门槛足够的低,谁都能上手,在百度的文心智能体平台上,甚至有11岁的小学生,在创造智能体,并且通过了搜索和其他渠道分发出去。
另一方面,天花板又足够的高,可以做出功能非常强大的应用,多个智能体的协作,还可以解决更加复杂的问题。
下面展示4种不同类型的智能体:公司类、角色类、工具类、行业类。
公司类智能体
AI时代的公司官网:主动推荐、及时响应、一对一服务。
公司类的智能体,它相当于是AI时代公司的官网。
大家可以回顾下,传统官网具有那些能力,比如,公司的介绍、产品的图片、参数展示、线下门店的位置等等。
对于公司类的智能体上面提到的这些都有,而传统网站没有的主动推荐、即时响应、一对一的服务的能力、公司智能体也有。
比亚迪例子
以比亚迪的智能体为例,可以和传统官网可以做一个比较。
在百度搜索这个比亚迪,那么,你就能够直接唤起它的官网智能体,点击进入,比亚迪品牌的介绍等信息。
这个就类似于传统的官网,然后,你让他推荐一台性能均衡的车型。
什么叫性能均衡,对于传统的官网,是不知道什么叫性能均衡的,所以他没法给你推荐。
而有了大模型智能体的理解能力,就可以好的做出筛选,给出建议,并且,展示相关的这个产品的图片。
当你对几个车型都有兴趣,想比较一下看那个更适合你的时候,那么在传统的官网上要花好多时间去研究的,因为每个车型,它对应的这个商品详情页,都是单独的,你得在不同得详情页之间来回得切换着看,非常麻烦。
而对于智能体,可以直接给你把多个车型得动力类型、车身尺寸、续航、加速性能等等放在一起,拉出一个表格来,非常直观。
如果想到线下门店去试驾怎么办,那智能体,也可以调出来地图,帮你一键导航直达目的地。
智能体跟传统官网不一样的,那就是对于最新的消息、或者最个性化的问题的回答。
传统的官网,它对外界这个市场信息的变化,往往不够敏感,客服人员对于个性化的这种问题,也难以给出令人满意的回答,,通常只能做记录,然后再做电话回访。
而智能体可以利用大模型的理解,生成、逻辑、记忆等能力,和检索增强能力,快速的从网上获取最新的,最准确的信息,并且在一秒钟之内,就给出令人满意的答案。
如果你还有更复杂的问题,智能体也可以不断地跟你进行互动,澄清反问来最终满足你的需求。
效果提升
比起传统的官网,智能体既是你的品牌顾问,又是你的金牌销售和客服,即专业又贴心,一对一的服务,大幅度的提升了互动营销的效率。
比亚迪的这个官方智能体,上线以后,它的销售线索的转化率提升了119%,联想AIGC的智能体的互动率提升了89%
未来公司的这个官方智能体,很可能会替代它的官网,成为最直接的面向消费者第一界面。
角色类智能体
角色类智能体,数字人、高度拟人化的智能体,更聪明、有情感、有态度。
角色类智能体,提到角色,大家可能很容易想到数字人,
数字人有自己的人设,有自己的知识库,这些都是典型的智能体的基本要素。
之前的数字人,短板是显而易见的,他们说话的声音,肢体的动作,以及口型都非常地机械呆板。
现在的数字人,在大模型地加持之下,数字人逐渐变成了高度拟人化地智能体,更聪明有情感、有态度。
他们可能是教育辅导老师,留学顾问,也可能是心理咨询师,私人健身教练等等,都非常受欢迎。
智能体机制和多模态进行有效结合的时候,他就变成了一个有形象有动作。
数字人
下面来看几个高度拟人化的数字人。
在百度搜索类似于教育辅导这样地这个关键字,在搜索结果页当中,就能够看到这些数字人
注:目前在APP上搜索关键词没有显示相关数字人,可能还未开发,不过,可以看下面视频体验下高度拟人化的数字人直播视频。
数字人
他们不仅比我们以前看到地数字人,更加自然,动作幅度更大,甚至,他在直播场景下说着说着,在合适地时机他就停下来,可以直接回复网友现场提出地问题。
这些是需要大量数据积累,和直播互动地规律地这种提炼总结才能做到的。
以前,是不具备这样的能力的,今天的数字人直播转化率已经超越了真人。
每个人地直播水平高低不同,但是数字人能够做地比平均水平还要好,这个也是数字人的优势和趋势。
如果不说的话,你可能都不会意识到他是数字人,数字人的好处就是在于,他这个脚本也是完全是AI生成的,
数字人可以比真人更加有效的记住各种各样的复杂数据。
虚拟人和真人的这个交互,将能够创造出来巨大的产品价值和社会价值。
名人分身
这里的虚拟人,可以是现实生活中,一名名师的数字分身,也可以是一位名医、一位王牌的律师、一位金牌的销售的数字分身。
此时此刻的你从来没有像现在这样,离他们如此之近。
工具类
工具类智能体其实是个热门赛道,比如笔灵的AI写作,Canva设计助手,LOGO生成器等等,这些都是典型的工具智能体。
自由画布
本次大会百度发布的重磅产品【自由画布】,给你带来更多无限创作和想象空间,非常值得期待的一款产品。
截止2024年11月25日,已经有20万用户排队预约申请体验,可见大家对这款产品还是非常期待的。
自由画布地址:https://wenku.baidu.com/pcactivity/freeBoard?from=search&wkts=1732326485235
自由画布
下面是百度发布的一个全新的工具类的智能体,是由百度文库和百度网盘联合开发的自由画布。
以行业分析师写研究报告作为例子,来介绍一下自由画布。
在很多人的认知当中,行业报告,它就是一个图文结合的这种内容,但是今天,它可以以另外一种形态,
有传统的图文表格,也有像发布会的视频,电话会的录音等等,组成一种更全的多模态的这种报告,
在自由画布上,可以很好地实现这样的一个效果,来看一下什么叫做自由画布。
使用场景
下面通过办公场景和个人创作场景来了解下什么是自由画布,以及自由画布的使用。
办公场景
以为办公场景为例子,了解下自由画布的四大基本特点。
输入自由
第一大特点叫做输入自由,自由画布打通了公域和私域的数据。
比如,文库上有公开的高质量的文档和片段,外部的网页,都可以一键摘录到自由画布上。
同时自由画布上还可以添加来自私域的内容,比如说自己网盘上记录的电话会议的音频,收藏的专业视频、深度的调研报告等等。
不限格式,不限来源,全部都可以拖到这个画布上,这就是输入自由。
编辑自由
自由画布的第二大特点就是编辑自由,你不再需要花费太多时间去做居中、调字号、排版等等这些基础的繁杂的工作。
自由画布重新定义了编辑,让用户成为总指挥,通过批注的方式来告诉AI,如何利用这些素材,
也可以圈出最需要的内容的片段、或者原封不动要复用的这些部分,这些就能够确保生成的内容,是完全符合你的真实想法的。
创作自由
自由画布第三个特点就是创作自由。
在画好重点之后,你框选全部需要的素材,一键生成,AI就会根据你输入和要求来开始思考,那么在对应的章节下,利用相关的素材,生成一个结构清晰的,全新的这个富媒体的内容。
当然,也可以打开这个文档,再做局部的编辑以及改写、扩写、续写等等,
实现一边在画布上这个捋思路、做草稿,一边在文档上再完善细化,一站式地解决各种各样的问题。
分享自由
自由画布的第四个特点就是分享自由。
最终生成的内容可以保存在本地,也可以上传到用户的个人云上,那么还可以用一个链接分享出去,
无论是分享到行业交流群,朋友圈、或者其他的平台,那么都可以直接打开这个链接,观看播放。
所以,不管你是内容的生产者,还是消费者,都再也不用关心文件的格式是什么、手机或者电脑有没有相关的应用、内存还够不够等这些情况。
个人创作场景
下面展示一个偏向于个人创作场景的案例。
创作漫画
今年黑神话悟空很火,那么让AI帮助我们发挥想象,看看大圣穿越到现代会发生什么。
自由画布,根据要求,生成了一个,大圣穿越到现代探险的故事。
那么是不是可以基于这个故事,生成一幅漫画呢,当然是可以的。
故事定义
要创作一个漫画,自然少不了故事定义,在漫画当中,这个孙悟空游览了山西几个打卡的这个圣地,最后来到了上海的一段漫画故事。
转成视频
那么能不能让漫画转成视频,让AI把这个漫画转成视频,下面就是实际效果。
孙大圣穿越回现代探险
所以大家看到,在原本这个漫画当中的对白,在这个视频里,变成了字幕和配音,这样这个故事就更加生动有趣了。
故事再定义
那如果我们脑洞再大一点,让一个小朋友穿越到花果山怎么样。
其实很简单,只要上传一张小朋友自己的照片,就能够让他融入到,这个个人定制的画本当中。
在完成已经上传一张一个小朋友的照片后,生成新的一段故事《梦游花果山的故事》。
点击制作画本就可以了,画面这个小朋友的神态,和真人照片可以做的非常的相似。
体验下来,大家可以感觉到,自由画布,它是一个激发人们想象的一个万能的白板。
梦游花果山的故事
自由画布是一个由文心多模态大模型(文字、图片、语音、视频等)加持下的一个万能白板,它能够很好的激发人们的灵感和创造力。
立即可用的现货
因为自由画布,每一个孩子都可以成为故事的主角。
因为自由画布,每个人都可以成为漫画家,成为短视频导演。
而且,这个不是期货,它是立即可取的现货,是真正服务于创造的心智生产力。
自由画布很快就会正式上线(2024年11月12日大会,截止目前11月23日,可提交申请等待审核进行体验)
行业类智能体
行业智能体,比如说法律医疗健康、金融体育旅游等等领域,都涌现了很多很有用的智能体。
法行宝
来看一个法律行业的智能体,法行宝。
在每个人的工作中,都会遇到各类法律相关的问题,但似乎,不是每个人都能够第一时间找到专业的律师,来帮自己支招。
这个时候,法行宝就很有用了,它很受用户的欢迎,在百度的平台上,已经回答了超过1600万个问题。
上线半年多以来,法行宝为940多万人提供了高效的、可信的法律服务,成为了每个普通人专属的AI免费律师。
智能体Top100
目前在文心智能体平台上,已经吸引了15万家企业,和80多万名的开发者参与,覆盖的应用场景非常非常多。
现在大屏幕上显示的就是文心智能体平台,TOP100的智能体,这个是基于我们对于智能体的分发量,平均的对话轮次,用户的喜爱程度等等综合指标,评选出来的。
有角色类的智能体、有工具类行业类的智能体、还有像职场、情感娱乐等等类型的智能体。
非常荣幸,博主开发的智能体《00后疯感工牌生成器》上榜了,欢迎大家百度搜索体验。
体验地址:https://mbd.baidu.com/ma/s/Cy2SGLLh
百度还邀请英伟达作为我们的技术合作伙伴,共同发起了文心智能体创新大赛,在大赛中,也涌现出来不少非常有价值的智能体应用。
非常开心,博主开发的智能体《颜值测试》也在本次创新大赛荣获二等奖,同样欢迎大家体验。
体验地址:https://mbd.baidu.com/ma/s/taJpwggF
创造增量价值
产业应用,让大模型为千行百业创造增量价值。
大模型如何为产业落地,如何为千行百业的企业创造增量价值,这是非常值得探索的问题。
过去一年半左右,在金融、能源、教育、招聘、公共服务等等各个领域,大模型跟场景结合,在降本和增效两个方面,都取得了实实在在得成果。
百度智能云,是构建智能体产业生态的主要依托,目前,在百度智能云的千帆大模型平台上,已经累计帮助用户精调了3.3万个大模型,开发出来77万个企业应用,百度智能云已经拥有了中国最大的大模型产业落地的规模。
目前很多民营企业,都在联合百度智能云进行AI创新。
百胜中国
大模型和AI应用如何如何给百胜进行赋能。
大模型企业的代表百胜中国,国内最大规模的这个餐饮公司。我们经常光顾的肯德基、必胜客,这些都是百胜旗下的这个品牌。
百胜和百度,一直有很良好的合作,最早在门店选址评估这个方面,百度帮助百胜完成了,新增千家门店的这个选址,大幅度提升了选址的质量和效率。
客服赋能
在客服领域,百度提供了客服产品和大模型能力,服务百胜旗下多个品牌,
尤其是解决了原来客服机器人难以识别这个客户的真实意图,没法关联上下文等等这些个问题。
目前客服应用和解决方案,已经覆盖了百胜的全线业务。
大模型,每天调用量峰值达到数百万,客服机器人的问题解决率,提升到了90%。
在大模型时代,百胜还需要建设一个安全、可信的大模型服务专区,来满足内部品牌,各个业务线AIGC的应用需求,因此百度提供了千帆平台,文心Speed模型,基础云算力等等服务,给百胜构建了完善的,大模型的底座能力,帮助百胜更加快捷地开发和部署,响应AI应用。
点餐赋能
除此之外,百度也正在和百胜一起把ASR、TTS大模型和数字人技术结合起来,共同验证一个新的应用场景,就是在点餐屏上,打造一个大模型点餐的能力。
一起期待未来百度和百胜继续合作,共同探索在这个企业数字化,智能化转型方面各种各样的可能性,也能够为其他企业带来很好的案例。
智联招聘
大模型和AI应用如何给智联招聘平台赋能。
让求职者轻松找到工作,让企业高效获得人才。
智联招聘,是国内领先的这个招聘平台。
招聘平台,它的主要工作就是把合适的人匹配到合适的岗位上去。
过去,这个工作大量的依靠人工来完成,人工的给岗位打标签,人工的去筛选这个海量的简历,人工的去分析,
求职者的对话,不仅费时费力,效果也难以保证,经常会有遗漏,会有错配。
百度和智联招聘合作,利用大模型,重构了这个核心环节,通过自然语言对话,集合岗位的描述,迅速地为求职者,
描画出精准的这种匹配画像,和岗位的匹配画像,并且自动回答有关工作时长,薪资福利,工作地点等等。
这些求职者关心的问题,甚至可以进一步帮助安排面试,即为求职者推荐了合适的职位,也为用人单位,精选出来所需要的人才,显著的提高了用人单位招聘效率和质量。
目前百度和智联招聘的合作,已经成功沉淀出了一系列的这个提示词模板,并且再数万条的这个实际数据得到了验证,人岗匹配的平均准确率高达93%,而大模型的使用成本下降了大约90%,为招聘行业带来了全新的变革,让每一位求职者,都能够更轻松地找到心仪的工作,让每一家企业都能够高效地获取所需的人才。
产业应用Top100
大会上百度发布了基于大模型的100大产业应用。
它涵盖了制造、能源、交通、政务、金融、汽车、教育、互联网等等众多的行业。
百度希望跟合作伙伴和客户,一起推动智能产业生态的建设,共同来加速国家,人工智能+行动计划的落地。
很荣幸,博主开发的多款应用也在榜单上,为AI应用以及生态建设贡献了自己的一份力量,希望能给大家作为一个参考,后续一定会涌现出更新优秀的产业应用,期待你们优秀的产品。
未来信使、趣读古诗、图转故事、卡通头像制作等这些应用均由博主开发,感兴趣的可以到千帆社区体验。很荣幸,博主开发的多款应用也在榜单上,为AI应用以及生态建设贡献了自己的一份力量,希望能给大家作为一个参考,后续一定会涌现出更新优秀的产业应用,期待你们优秀的产品。
未来信使、趣读古诗、图转故事、卡通头像制作等这些应用均由博主开发,感兴趣的可以到千帆社区体验。
我在百度智能云AppBuilder发现了一款AI原生应用,快来一起玩吧~「趣读古诗」:https://console.bce.baidu.com/ai_apaas/examplePage/a68cc31b-effa-41af-9e0e-a11c26c2b64f
超级有用
百度不是要一个”超级应用“,而是要打造数百万”超级有用“的应用。
发布100大产业应用,代表了百度的认知和态度,百度不是要推出一个超级应用,而是要不断地帮助更多人、更多的企业,打造出来数以百万级的超级有用的应用。
秒哒
本次大会,百度重磅发布的第二款产品,秒哒。
目前百度已经拥有能力和条件,让一行代码都看不懂的人,具备程序员的能力,以及拥有可以让任何一个想法都能够迅速地、低成本地变成现实的能力。
那么怎么变,这个是需要工具的。百度重磅发布的产品秒哒就是一款很好的工具。
秒哒,一个不需要写代码,就能够实现任意想法的软件,一个由大模型和智能体组成的全新的软件。
它目前来说是最复杂的多智能体协作工具,它包括无代码的编程,多智能体的协作,以及规模化的调用各种工具的能力。
秒哒跟现在市面上那些个辅助代码生成工具,是完全不一样的,因为它根据不需要你看得懂代码。
活动邀请系统
基于秒哒能力,进行多智能体协作完成活动邀请系统的开发。
假设我们要为萝卜快跑开一个新技术的发布会,需要打造一个活动邀请系统,把邀请函分享给其他人,并且能够填写手机等信息。
首先,得上传一个有关大会的时间,地点和主题的这个文件给秒哒,将如何满足这个需求。
小组长智能体
接收到指令之后,屏幕上会出现0号智能体,也就是小组长智能体,它是整个智能体团队的核心,负责来规划和调度,它把任务拆解成了需求确定、内容生产、工程开发这三个步骤,并且它会召唤各个智能体来协作完成这个任务。
策划智能体
首先它召唤了1号智能体,就是策划智能体,负责活动邀请函的策划,设计解决方案,
他把这个任务又分拆成了核心需求、内容结构、开发需求、数据收集这四个子任务。
小编智能体
接下来,2号智能体就被召唤出来,这个智能体是小编智能体,它的主要职责,就是编辑邀请函当中的所有的文字和媒体内容,邀请函需要在正文包含一段这个发布展望,它通过全网的搜索和总结,写出了一段关于萝卜快跑的精彩的描述,然后它自动阅读刚才上传的文件,以及时间地点,这些核心信息提取出来,并且放到合适的位置上。
对于封面图,提出新的要求,就是给智能体几张萝卜快跑第六代车的照片,让它生成一个充满科技感的图片,作为我们这个邀请函的封面。
我们看到,智能体通过刚才讲的,这个iRAG的能力成功地可以绘制出来一张带有RT6的这种封面。
程序员智能体
然后就是叫出来3号智能体,它就是程序员智能体,负责写代码的来制作和部署网页。
可以看到屏幕上的智能体在写代码,但是,你完全不需要看懂这边这一侧的东西,你只要看懂右边出来的效果即可。
那么等到它写完之后,还需要有一个智能体出来。
质检员智能体
4号智能体,叫做质检员,它发现了一个bug,所以它把程序员智能体再叫回来,再重新写,或者改这个代码。
可以看到,质检员智能体会利用反思能力,运行测试代码,看看这个代码是不是能够跑通。
现在,这个智能体已经把代码修改好了,自动生成了邀请函。
但是我觉得这个画风,还是不够好看,想再换一个更有科技感的,那么输入这个想法之后,
程序员智能体会再写一次代码,给出一个新的版本,这次,换成了一个更有科技感的色调,有邀请函、会议日程,
最后还附上了参会报名的界面,通过调用地图的API,嘉宾就可以一键导航到达会场。
我们输入这个测试信息,那我们可以再后台看到这样的这个报名信息,已经在后台这个统计表格当中。
这样一个发布会的邀请系统,从开始到最后结束,总共只用了大概3分钟的时间,用户,不需要些一行代码就可以完成。
秒哒特点
通过上面例子,可以知道秒哒有三大特点,无代码编程、多智能体协作、多工具调用。
所以整个这个过程,体现了秒哒这个产品,它的三个特性,
第一是无代码编程,
第二是多智能体的协作,
第三是多个工具的调用(网页检索的工具和iRAG)。
无代码编程,是由大模型这个直接生成代码,不需要人写一行代码,所以这个门槛就大大地降低了,每个人都能上手。
多智能体的协作,是基于文心大模型的思考、规划等等这些能力,实现对于不同类型的智能体的调度、编排。
那么这个例子中,一共有5个智能体来参与协作,来完成这这件事情,调用了三个工具,一个是网页检索的工具,它要到网上去找RT6的这个各种各样的资料,然后来进行创作。
同时使用iRAG图片检索生成它可以保持原来的这个精准度,生成相应的图片。
然后还有地图的API的这个调用。
所以,我们看到,就是有了秒哒,一个人通过自然语言的交互,就可以完成一整套的系统的这个搭建。
除了上面展示的这个邀请系统,秒哒是可以在任意场景下,做任意的应用。
应用的复杂度,它会随着技术的提升不断的提升,最早开始的时候,可能它只能做一些比较简单的,
比如说编程呢,可能200行300行程序它能做到,然后以后随着基础模型的能力提升,以及秒哒本身技术的这种演进,
那么它就可以做越来越多的,越来越复杂的这个事情,这意味着什么,这意味着你不需要去招募项目经理、设计人员、开发人员、测试人员等等,你自己就可以指挥多个智能体,来协同完成任务。
想想是不是非常的有意思。
通过想法赚钱
一个前所未有的,只靠想法就能赚钱的时代。
也就是说,只要有想法,就可以心想事成。
我们将迎来一个前所未有的,只靠想法就能赚钱的时代。
以前你有了想法,你还要去执行,得把想法做出来,现在只要你有想法,秒哒就可以帮你做了。
AI之所以被成为产业革命级的机会,就是因为它对于社会经济,带来了生产力的无限的扩张。
秒哒的使命
秒哒是希望让每个人具备程序员的能力。
秒哒,让每一个人都能够具备程序员的能力,会说话就能做出应用来,它能够很好的提升我的工作效率。
现在就可以去排队预约,百度将在明年一季度发布秒哒,期待一下下。
真的来了
AI应用时代,真的来了。
本次大会在回顾了过去24个月全球生成式人工智能变革,带来的应用的大爆发,百度也发布了文心iRAG和无代码秒哒,这两个技术展示了智能体产业应用,两大应用方向,可以看出来,AI应用的时代是真的来了。
当然,在人类这个信息技术变革的不同的历史时期,应用出现的样貌也不一样,
在PC时期,它是一个一个的软件和网站,
在移动时期,它是一个一个的APP和被关注的账号,
在AI时代,应用的主要形态呢,就是智能体。
随着大模型技术的能力,还在以指数级的跃迁,自然语言就成为了这个时代,最重要的编程语言,
我们每一个人都能够动手创造一个属于自己的,也属于他人的AI应用或者智能体。
在国外有一种说法叫做软件吞噬世界,百度李彦宏认为这个世界不应该被吞噬,而应该被创造,AI时代应用创造世界,所以请大家和我一起见证,AI APPLICAITONS CREATING THE WORLD。
💖哇哦,这么长的文章您都能坚持看完,你太厉害了,最后感谢你的耐心阅读💖