如果你是一个数据分析师,或者你接触过数据分析师的工作日常,你一定知道:
数据分析师作为业务的数据支持者,往往一手握着不同来源的数据,以SQL等技术手段提取与处理他们;
另一手握着可视化方法、报表、报告等展现形式,对业务方、合作方、上级领导等展示这些数据的内涵与关系。
如果你了解近几年的AI技术,你一定知道当下人工智能已经具备非常强大的对话沟通能力(以ChatGPT为代表的大语言模型,大语言模型即LLM-Large Language Model)、文生图能力(以Stable Diffusion为代表的图生成模型)、图片理解能力(以Gemini为代表的多模态理解模型)、文生视频能力(以Sora为代表的文生视频模型)等。
这些模型已经可以让AI就像是人一样去处理许多文字、图片、视频等相关的工作。
AI将是未来发展的趋势,很多专家学者都提到,AI将会代替很多人类做的工作。居安思危,未雨绸缪,知己知彼,百战不殆。那么作为一个数据分析师,在AI可能替代掉你之前,不妨我们主动出击,先来了解了解,如何用AI替代你自己。
本文我们以LLM出发,推演AI替代一个数据分析师的几个阶段。
第一阶段:数据分析师使用LLM
使用LLM替代你的第一步,是你先要学会使用LLM。
在这一阶段,你只需要有一个和LLM可以交互的界面,就可以使用LLM强大的功能了。最初火起来的ChatGPT,或是当前前沿的GPT4都是理想的选项;国内一众大模型在中文方面的表现,于某些评测上已经超过了GPT4,故使用国内研发的大模型也是不错的选择,典型如文心一言、通义千问、讯飞星火、智谱清言等。
本文的示例LLM选择智谱清言的ChatGLM4【https://www.chatglm.cn/main/alltoolsdetail】。
数据分析师的日常工作可以大致上分为:拆解业务模式,制作数据指标体系,制作可视化看板/报表/报告。这几个步骤使用LLM均可以非常有效地提升各个环节的效率。
对于拆解业务模式,你可以直接从数据分析师的角度,向LLM提问,为自己所要分析的行业得到可靠的信息输入。例如,你做为一个电商数据分析师,在不知该如何下手的时候,就可以向LLM提问,获取一些分析思路,例如,你可能会展开如下的问答:
制作数据指标及其体系,最基础的实操部分就是写SQL。
LLM是可以直接帮助你来写SQL的,你的描述足够清晰,写出的SQL就可以足够准确。例如:
当然,你若是觉得还缺一些信息(如没有按照日期升序排列,日期加减没有按照预期的运算进行处理),也可以将你的需求融合到问题中,这样可以得到更为精确的答案。
数据分析师的另一个工作,就是制作报表、报告、可视化图表等展示材料。制作这些材料需要一些数据输入,这需要我们在提问时就将这些数据输入带入到问题中,让LLM根据这些数据进行扩写。例如:
对于绘制图表,LLM有时可能无法帮我们直接完成,但可以帮我们生成制作图表的python代码。而在最新一版的ChatGLM4中,这些代码结果也可以被渲染出来,绘制图表就可以非常轻松地完成。
如果不使用LLM,完成以上所有步骤,可能既需要你查找资料,还需要构思SQL,或是打开一些文档软件或统计软件进行各个操作,但如今,使用LLM可以非常快速完成以上所有工作,大大提升一个数据分析师的工作效率。
第二阶段:让AI学会使用工具
完成了第一阶段,有些分析师可能就会说:AI虽然功能强大,但也并不是什么事都会做的,比如它写出了SQL,但没法读数据库吧。是的,一个崭新的LLM是不会读数据库,但如果你教会了他呢?这就需要提到一个非常著名的开源项目:LangChain[https://github.com/langchain-ai]。
LangChain 是一个用于开发由语言模型驱动的应用程序的框架。它专注于将LLM与其他数据源连接起来,并允许语言模型与其环境进行交互。LangChain 框架提供了两个主要的价值主张:
组件:LangChain 为处理语言模型所需的组件提供模块化的抽象。它为所有这些抽象提供了实现的集合,这些组件旨在易于使用,无论您是否使用 LangChain 框架的其余部分。
Chain:这些链可以被看作是以特定方式组装这些组件,以便最好地完成特定用例。这旨在成为一个更高级别的接口,使人们可以轻松地开始特定的用例。这些链也旨在可定制化。
LangChain可以以Tool的形式,将一些LLM不能直接操作的功能工具化,再将使用这些工具的时机、输入输出分析到位,就可以进行调用了。甚至,LangChain可以将上网检索集成为一个原装工具,这也构成当下很火的RAG(Retrieval Augmented Generation)LLM应用方案的主要依赖。别说是数据库了,整个互联网都会是LLM的“数据库”。
有了LangChain这类工具,LLM就可以被看作一个“大脑”,各种Tools就如同外设或四肢,AI也即可以真正被看作是一个“人”了。
做为数据分析师,可以借助LangChain将一些常用的操作(如读数据库)加入到Tool集合中。国内的大模型也在开发类似的工具链,智谱AI就是其中一个不错的选择。
在教AI使用工具时,就不能仅仅依赖一个界面了。你需要将所谓的AI所暂时不会的“操作”(如读数据库)代码化,因此你需要写一些代码来完成这项工作。
关于LLM的部分,可以参照智谱AI开放平台,通过调用智谱AI的API,即可以使用大模型。具体见:https://open.bigmodel.cn/。
一个使用LLM查询的例子如下:
以上运行结果为:根据您的请求,我已经查询到2022年1月23日从北京到广州的航班号为8321。
可见,LLM无法得知航班号,但通过函数调用的方式,即可以知道航班号,并进行阐述表达。做为数据分析师,可以把常用的像是查询数据、AB实验等做成“接口”,并在description【注意,代码中的description很重要,LLM会分析该字段来决定是否需要调用该接口】。
第三阶段:管理你的AI
有时我们向LLM提问,可以看到AI给出的答案说得是头头是道,但仔细验证会发现是有问题的。这种现象就是大模型的幻觉现象。
解决幻觉现象的方法有两个主要的方向:一是把LLM训练得更加聪明,二是用多个AI配合(一个出结果,一个负责检查和质疑),以避免这种情况的发生。
因此,我们在实际使用LLM时,可以实例化多个LLM助手。此时你就像一个老板,给自己的不同的LLM助手部置任务,让AI高效并且可靠地完成你的工作。
比如:
你可以让一个AI负责分析需求报告–>
一个AI负责将需求转成提数语句–>
一个AI负责取数据、清洗数据–>
一个AI负责制作报表或报告;
另创造三个AI,一个负责需求与提数的检查,一个负责提取逻辑与取数结果的核对,一个负责数据与报表或报告的一致性校验。整个过程就可以如同你多了七个助手帮你在做事,而你只需要将需求输入即可。
有一个开源项目chatdev(https://github.com/lgs/ChatDev)。以大模型为中心,构建了一个虚拟软件开发公司,在这个公司里,也有像是开发人员、测试人员、项目经理等角色,这些角色也均为AI。通过该项目我们可以见识到AI让软件开发变成了多么容易的一件事。
当然,有一点是不能忘记的。你理解AI可以为你做什么时,做为一个数据分析师同样也需要了解自己想要什么,只有将自己想要的清楚地表达出来,AI才可以理解到你的所求。
(如果AI暂时不能理解你的意图,不妨等LLM再迭代一版再试下?)
第四阶段:最后一步
如果你通过AI替代了你,最后一步就是:不要告诉你的老板。
如何学习AI大模型?
作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
一、全套AGI大模型学习路线
AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
二、640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
三、AI大模型经典PDF籍
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
四、AI大模型商业化落地方案
作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。