大语言模型LLMs如何进行探索性数据分析

最新推荐文章于 2025-03-19 09:48:03 发布

程序猿李巡天

最新推荐文章于 2025-03-19 09:48:03 发布

阅读量1k

点赞数 5

文章标签：语言模型数据分析人工智能安全开源架构 embedding

本文链接：https://blog.csdn.net/m0_59235945/article/details/140831763

版权

AI驱动的数据分析

在思考理解复杂系统所涉及的挑战时,经常想起在工作期间发生的一件事。当时,我正在帮助我们的机器学习团队为业务发展团队进行分析,以了解哪些客户行为能预测高客户终身价值(LTV)。我们与一位才华横溢的数据科学家合作,他训练了一个逻辑回归模型,并输出出系数作为初步分析。

当我们与业务发展团队一起查看分析结果时,他们感到困惑 - 逻辑回归系数难以解释,因为其尺度不是线性的,而且最具预测性的特征并不是增长团队可以轻易影响的因素。我们都沉思了一会儿,并为一些后续分析开了一个工单,但正如经常发生的那样,两个团队很快就转向了他们的下一个想法。数据科学家有一些高优先级的工作要做,涉及我们的搜索排名算法,而实际上,业务发展团队把这个分析扔进了垃圾堆。

我仍然在思考那次练习 - 我们是不是放弃得太早了?如果反馈循环更紧密会怎样?如果双方都继续深入研究会怎样?第二次或第三次分析会揭示什么?

大规模解锁探索性分析

上面的轶事描述了一次没有完全落地的探索性分析。探索性分析与描述性分析不同,后者只是旨在描述正在发生的事情。探索性分析旨在更好地理解一个系统,而不是回答一个明确定义的问题。考虑以下在商业环境中可能遇到的几种问题类型:

注意探索性问题是如何开放式的,旨在提高对复杂问题空间的理解。探索性分析通常需要更多的周期和"领域专家"与实际进行分析的人之间更紧密的合作,而这两个角色很少是同一个人。在上面的轶事中,合作不够紧密,反馈循环不够短,我们投入的周期也不够多。

这些挑战就是为什么许多专家提倡采用"配对分析"方法进行数据探索的原因。类似于配对编程,配对分析将分析师和决策者聚在一起,实时进行探索。不幸的是,由于资源和时间限制,这种分析师和决策者之间的紧密合作在实践中很少发生。

现在想想你工作的组织 - 如果每个决策者都有一位经验丰富的分析师与之配对会怎样?如果他们能得到那个分析师的全神贯注,并且可以随意提出后续问题会怎样?如果这些分析师能够轻松切换上下文,跟随他们合作伙伴的意识流在想法和假设之间自由联想会怎样?

这就是大语言模型(LLMs)在分析领域呈现的机会 - 承诺任何人都可以在身边有技术分析师的支持下进行探索性分析。

让我们看看这在实践中可能如何表现。以下案例研究和演示说明了一个具有领域专业知识的决策者如何有效地与可以查询和可视化数据的AI分析师配对。我们将比较ChatGPT 4o模型与使用Tableau进行手动分析的数据探索体验,后者也将作为对潜在幻觉的错误检查。

关于数据隐私的说明:以下部分中链接的视频演示使用纯粹的合成数据集,旨在模仿真实的业务模式。有关AI分析师的隐私和安全的一般说明,请参阅数据隐私部分。

案例研究:电子商务分析

想象一下:你是一家电子商务服装网站的忙碌高管。你有预定义的高层KPI执行摘要仪表板,但一天早上你看了一下,发现了一些令人担忧的事情:月环比营销收入下降了45%,但原因并不立即明显。

你的思绪被拉向几个不同的方向:是什么导致了收入下降?是否仅限于某些渠道?问题是否仅限于某些信息类型?

但更重要的是,我们能做些什么?最近什么策略效果不错?什么策略效果不佳?这个时候我们通常会看到什么季节性趋势?我们如何利用这些趋势?

为了回答这些开放式问题,你需要进行一个相当复杂的多变量分析。这正是AI分析师可以帮助的媒体类型。

诊断分析

让我们先仔细看看那个令人不安的月环比收入下降。

在我们的例子中,我们看到归因于营销活动的总体收入大幅下降。作为分析师,有两个并行的思路来开始诊断根本原因:

将总体收入分解为多个输入指标:

总消息发送量:我们是否发送了更少的消息?
打开率:人们是否打开了这些消息?即,消息主题是否有问题?
点击率:收件人是否不太可能点击消息?即,消息内容是否有问题?
转化率:点击后的收件人是否不太可能购买?即,Landing Page页体验是否有问题?

在不同的分类维度上隔离这些趋势

渠道:这个问题是否在所有渠道都观察到,还是只在一部分渠道?
媒体类型:这个问题是否在所有媒体类型中都观察到?

在这种情况下,通过几个提示,大语言模型能够识别出这两个时期发送的媒体类型有很大的差异 - 即7月进行了50%的促销,而8月没有。

临时数据可视化

所以现在下降更有意义了,但我们不能每个月都进行50%的促销。我们还能做些什么来确保我们充分利用我们的营销接触点?让我们看看我们表现最好的活动,看看除了促销之外是否有什么进入了前10名。

数据可视化工具支持点击式界面来构建数据可视化。今天,像ChatGPT和Julius AI这样的工具已经能够忠实地复制迭代数据可视化工作流。

这些工具利用Python库在聊天界面中直接创建和渲染静态数据可视化以及交互式图表。通过自然语言调整和迭代这些可视化的能力相当流畅。随着代码模块、图像渲染和交互式图表元素的引入,聊天界面开始接近由Jupyter notebooks普及的熟悉的"notebook"格式。

通过几个提示,你通常可以像使用Tableau这样的数据可视化工具的高级用户一样快速地调整数据可视化。在这种情况下,你甚至不需要查阅帮助文档来学习Tableau的双轴图表如何工作。

在这里,我们可以看到"新品上市"消息即使在大规模发送时也能带来强劲的每位收件人收入:

季节性与预测

所以"新品上市"似乎很受欢迎,但我们下个月应该确保推出哪些类型的新品呢?我们正进入9月,我们想了解在这个时候客户的购买模式如何变化。我们预计哪些产品类别会增长?哪些会下降?

再次,通过几个提示,我们得到了一个清晰、准确的数据可视化,我们甚至不需要弄清楚如何使用Tableau棘手的快速表计算功能!

购物篮分析

现在我们知道下个月哪些产品类别可能会增长,我们可能想调整一些交叉销售建议。所以,如果男士运动外套将看到最大的增长,我们如何看到哪些其他类别最常与这些商品一起购买?

这通常被称为"购物篮分析",进行这种分析所需的数据转换有点复杂。事实上,在Excel中进行市场篮子分析实际上是不可能的,除非使用笨重的插件。但是有了大语言模型,你只需要停下来,清楚地问你的问题:

“嘿GPT,对于包含男士运动外套商品的订单,同一客户在同一购物车中最常购买哪些产品类型?”

业务流程将如何演变以纳入AI?

上面的演示说明了大语言模型如何支持更好的大规模数据驱动决策。主要参与者已经识别了这个机会,生态系统正在迅速发展,将大语言模型纳入分析工作流程。考虑以下几点:

当OpenAI去年发布其"代码解释器"测试版时,它迅速将该功能重命名为"高级数据分析",以与早期采用者的使用方式保持一致。
使用GPT4o,OpenAI现在支持渲染交互式图表,包括更改颜色编码、悬停时渲染工具提示、排序/筛选图表以及选择图表列和应用计算的能力。
像Julius.ai这样的工具正在出现,专门解决关键分析用例,在适当的情况下提供对多个模型的访问。Julius提供对OpenAI和Anthropic模型的访问。
提供商正在使共享数据变得越来越容易,从静态文件上传扩展到Google Sheets连接器和更高级的API选项。
像Voiceflow这样的工具正在出现,支持AI应用程序开发,重点关注检索增强生成(RAG)用例(如数据分析)。这使得第三方开发人员更容易将自定义数据集连接到各种提供商的大语言模型。

考虑到这一点,让我们花点时间想象一下BI分析在未来12-24个月内可能如何发展。以下是一些预测:

人类分析师将继续在提出正确问题、解释模糊数据和迭代细化假设方面发挥关键作用。大语言模型在分析中的主要优势是其能力…领域专业知识仍然需要解释趋势并迭代假设。人类将减少查询和数据可视化构建,但在推进探索性分析方面仍然至关重要。

将自然语言转换为代码(Python, R, SQL)
智能清理数据集
有效可视化数据

在这个领域的技能将比查询和数据可视化的技术技能更重要。发展强大的数据素养和批判性思维技能的决策者将大大扩展他们利用大语言模型探索和理解复杂系统的能力。
企业大规模采用AI分析师的最大障碍将是围绕数据隐私的担忧。这些担忧将通过各种方式成功解决。尽管主要的大语言模型提供商有强大的隐私政策,但数据共享仍将是一个主要的焦虑来源。然而,已经有许多方法可以解决这个问题。大语言模型提供商已经开始尝试具有增强隐私和安全措施的专用实例。其他解决方案可能包括在通过API共享数据时进行加密/解密,以及共享虚拟数据并仅使用大语言模型进行代码生成。预计将看到大语言模型提供商和云数据库提供商之间增加垂直对齐(Gemini / BigQuery, OpenAI / Microsoft Azure, Amazon Olympus / AWS)以帮助解决
一旦数据隐私和安全问题得到解决,早期采用者最初将遇到速度、错误处理和轻微幻觉的挑战。这些挑战将通过大语言模型提供商、组织和个人的共同努力来克服。主要的大语言模型提供商正在以高速度提高速度和准确性。预计这种趋势将持续,分析用例将受益于专业化和选择性上下文(记忆、工具访问和狭窄指令)。组织将有动力投资基于大语言模型的分析,因为更深层次的集成出现,成本下降。个人将能够比学习SQL、Python/R和数据可视化工具更快地学习有效的提示写作。
商业智能(BI)团队将更少关注服务分析请求,更多关注构建和支持底层数据架构。今后,所有BI数据集的彻底数据集文档将变得至关重要。一旦大语言模型达到一定的组织信任水平,分析将主要是自助服务。"数据字典"长期以来一直是BI组织的次要关注点,但今后这将成为任何希望利用AI分析师的组织的基本要求。随着大语言模型能够即时执行复杂的数据转换,将需要更少的聚合表。那些被大语言模型使用的表将更接近勋章架构中的"银"级别,而不是"金"级别。一个明显的例子是本文后面研究的市场篮子分析。传统的市场篮子分析涉及通过复杂的转换创建全新的数据集。使用大语言模型,可以使用"原始"表,并且这些转换可以"即时"执行,仅针对最终用户感兴趣的产品或类别。这里的反驳观点是,原始数据集更大,因此将产生更高的成本,因为它们需要作为输入发送更高数量的令牌。这是一个重要的权衡,取决于利用大语言模型API的成本模型。
语音将成为大语言模型交互的主要输入方式,包括分析用例。语音技术通过Siri和Alexa等语音助手一直没有真正起飞。然而,随着GPT 4o及其实时会话语音能力的发布,预计语音交互将进入主流采用。
交互式可视化将成为分析用例的主要输出。众所周知,人类大脑在处理视觉信息方面比任何其他媒介都更有效率。预计探索性分析的用户体验将遵循语音/可视化模式,人类提出问题,AI分析师尽可能地可视化信息。
最高效的大语言模型分析系统将利用来自单一提供商的多个模型,智能地使用给定任务所需的最不复杂的模型,从而节省令牌成本。随着大语言模型提供商不断发布新模型,已经出现了一种基于令牌的定价结构,根据所使用模型的复杂程度应用乘数。例如,GPT4o的响应将比GPT3.5的响应成本更高。为了降低成本,基于AI的应用程序将需要优化其在不同模型之间的使用。由于与发送大量数据相关的成本,预计组织将限制数据共享到单一提供商。
扩展的上下文窗口将允许用户进行长形式分析,随着新数据的可用和假设的转变,在数天或数周内保持上下文。大语言模型的上下文窗口大小决定了可以作为输入传递的信息量。对于像数据分析这样的RAG(检索增强生成)用例,这可能特别高。更大的上下文窗口允许传递更多的信息,并进行更长的会话交流。目前,Google的Gemini 1.5模型拥有任何大语言模型中最大的可用上下文窗口

2024年如何配置和使用AI数据分析助手

如果你有兴趣尝试使用大语言模型进行分析用例,将需要一些初始配置。阅读以下部分,了解如何获得最佳性能并避免一些常见陷阱的提示。

初始配置

数据集和数据字典

首先,你需要为大语言模型提供对你数据的访问。冒着说明显的风险,你共享的数据集需要包含回答你想问大语言模型的问题所需的数据。更重要的是,需要有一个清晰、写得好的数据字典,涵盖数据集中的所有字段,以便大语言模型对每个指标和维度有深入的理解。

数据连接

根据你使用的模型,有多种方式可以与大语言模型共享数据:

文件上传:目前最简单的方法是在网页应用的UI中上传静态文件。ChatGPT、Claude和Julius.ai都支持在网页UI中上传文件。
Google Sheets:ChatGPT和Julius.ai原生支持从Google sheets导入数据。
API:对于更高级的用例或AI驱动的应用,你可以通过API共享数据集。查阅你的提供商的开发者文档以获取更多详细信息。

数据隐私

目前,除非你安装像Meta的Llama这样的开源大语言模型并在本地运行,否则你必须通过上述方法之一将数据发送给大语言模型。这引入了一些明显的安全和数据隐私问题。

如果你想分析包含PII(个人身份信息)的数据集,如客户ID,考虑聚合数据集是否足以满足你的需求。如果你确定预聚合的数据集不够,确保在上传之前加密这些字段,以便不暴露任何PII。

自定义指令

如果你正在创建自定义GPT,你可以为GPT提供一组自定义指令来指导其行为。对于不支持自定义实例的其他模型,如Claude或Gemini,你可以在对话开始时提供一个长形式的提示,其中包含这种指导。

根据我的经验,为AI分析师包含以下指导是有用的:

身份:告知大语言模型其身份。
数据集:如果你计划持续使用相同的数据集,值得为大语言模型提供一些关于数据集性质的额外内容。
数据可视化最佳实践:大语言模型渲染的图表可能需要一些微调以提高人类可读性。
计算字段:为了消除派生指标计算中的任何歧义,提供明确的指导是有用的。
一般指导:当你尝试使用大语言模型时,注意任何不希望或意外的行为,并考虑在自定义指令中添加明确的指导。

需要注意的事项

处理时间:GPT有时可能需要相当长的时间来生成响应。
错误消息:当你开始尝试使用大语言模型进行分析时,你可能会遇到频繁的错误消息。
信任,但要验证:对于更复杂的分析,抽查模型的输出以确认它走在正确的轨道上。
幻觉:我发现在引用有客观真理的知识库(数据集)的对话中,幻觉的可能性要小得多。

结论

大语言模型(LLMs)有望通过自动化查询和可视化工作流程来深刻地改变分析领域。在未来2-3年内,将大语言模型纳入其分析工作流程并重新定位BI团队以支持这项新技术的组织将在战略决策方面占据重大优势。这里的潜在价值足以克服数据隐私和用户体验方面的初始挑战。

正如不朽的Al Swearengen所说:“一切都在变化;不要害怕。”

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述