【AI】身为一个数据分析师，如何用LLM（大语言模型）替代你？

程序员新一

已于 2024-08-28 14:48:25 修改

阅读量459

点赞数 4

文章标签：人工智能语言模型 chatgpt

于 2024-07-29 11:28:26 首次发布

本文链接：https://blog.csdn.net/m0_70486148/article/details/140767044

版权

如果你是一个数据分析师，或者你接触过数据分析师的工作日常，你一定知道：

数据分析师作为业务的数据支持者，往往一手握着不同来源的数据，以SQL等技术手段提取与处理他们；

另一手握着可视化方法、报表、报告等展现形式，对业务方、合作方、上级领导等展示这些数据的内涵与关系。

如果你了解近几年的AI技术，你一定知道当下人工智能已经具备非常强大的对话沟通能力（以ChatGPT为代表的大语言模型，大语言模型即LLM-Large Language Model）、文生图能力（以Stable Diffusion为代表的图生成模型）、图片理解能力（以Gemini为代表的多模态理解模型）、文生视频能力（以Sora为代表的文生视频模型）等。

这些模型已经可以让AI就像是人一样去处理许多文字、图片、视频等相关的工作。

AI将是未来发展的趋势，很多专家学者都提到，AI将会代替很多人类做的工作。居安思危，未雨绸缪，知己知彼，百战不殆。那么作为一个数据分析师，在AI可能替代掉你之前，不妨我们主动出击，先来了解了解，如何用AI替代你自己。

本文我们以LLM出发，推演AI替代一个数据分析师的几个阶段。

第一阶段：数据分析师使用LLM

使用LLM替代你的第一步，是你先要学会使用LLM。

在这一阶段，你只需要有一个和LLM可以交互的界面，就可以使用LLM强大的功能了。最初火起来的ChatGPT，或是当前前沿的GPT4都是理想的选项；国内一众大模型在中文方面的表现，于某些评测上已经超过了GPT4，故使用国内研发的大模型也是不错的选择，典型如文心一言、通义千问、讯飞星火、智谱清言等。

本文的示例LLM选择智谱清言的ChatGLM4【https://www.chatglm.cn/main/alltoolsdetail】。

数据分析师的日常工作可以大致上分为：拆解业务模式，制作数据指标体系，制作可视化看板/报表/报告。这几个步骤使用LLM均可以非常有效地提升各个环节的效率。

对于拆解业务模式，你可以直接从数据分析师的角度，向LLM提问，为自己所要分析的行业得到可靠的信息输入。例如，你做为一个电商数据分析师，在不知该如何下手的时候，就可以向LLM提问，获取一些分析思路，例如，你可能会展开如下的问答：

制作数据指标及其体系，最基础的实操部分就是写SQL。

LLM是可以直接帮助你来写SQL的，你的描述足够清晰，写出的SQL就可以足够准确。例如：

当然，你若是觉得还缺一些信息（如没有按照日期升序排列，日期加减没有按照预期的运算进行处理），也可以将你的需求融合到问题中，这样可以得到更为精确的答案。

数据分析师的另一个工作，就是制作报表、报告、可视化图表等展示材料。制作这些材料需要一些数据输入，这需要我们在提问时就将这些数据输入带入到问题中，让LLM根据这些数据进行扩写。例如：

对于绘制图表，LLM有时可能无法帮我们直接完成，但可以帮我们生成制作图表的python代码。而在最新一版的ChatGLM4中，这些代码结果也可以被渲染出来，绘制图表就可以非常轻松地完成。

如果不使用LLM，完成以上所有步骤，可能既需要你查找资料，还需要构思SQL，或是打开一些文档软件或统计软件进行各个操作，但如今，使用LLM可以非常快速完成以上所有工作，大大提升一个数据分析师的工作效率。

第二阶段：让AI学会使用工具

完成了第一阶段，有些分析师可能就会说：AI虽然功能强大，但也并不是什么事都会做的，比如它写出了SQL，但没法读数据库吧。是的，一个崭新的LLM是不会读数据库，但如果你教会了他呢？这就需要提到一个非常著名的开源项目：LangChain[https://github.com/langchain-ai]。

LangChain 是一个用于开发由语言模型驱动的应用程序的框架。它专注于将LLM与其他数据源连接起来，并允许语言模型与其环境进行交互。LangChain 框架提供了两个主要的价值主张：

组件：LangChain 为处理语言模型所需的组件提供模块化的抽象。它为所有这些抽象提供了实现的集合，这些组件旨在易于使用，无论您是否使用 LangChain 框架的其余部分。

Chain：这些链可以被看作是以特定方式组装这些组件，以便最好地完成特定用例。这旨在成为一个更高级别的接口，使人们可以轻松地开始特定的用例。这些链也旨在可定制化。

LangChain可以以Tool的形式，将一些LLM不能直接操作的功能工具化，再将使用这些工具的时机、输入输出分析到位，就可以进行调用了。甚至，LangChain可以将上网检索集成为一个原装工具，这也构成当下很火的RAG（Retrieval Augmented Generation）LLM应用方案的主要依赖。别说是数据库了，整个互联网都会是LLM的“数据库”。

有了LangChain这类工具，LLM就可以被看作一个“大脑”，各种Tools就如同外设或四肢，AI也即可以真正被看作是一个“人”了。