AIGC 大模型辅助数据分析案例-省份城市信息精准提取

如果 AI 应用者,没有任何认知框架基础,直接让 AI 猛干,那么,他将一事无成。

    以我所在的数据领域工作,AI 直接上手完成一份分析报告,几乎是不可能完成的任务。

AI 不知道你们公司有哪些系统,系统里又有哪些数据库,数据库里的表之间的关联是什么,各字段代表什么含义。甚至有些字段有特殊业务含义,或者已经弃用了,AI 通通不知道。

这么看来,好像 AI在数据分析领域就是废物,解决不了任何问题,更无法直接应用到工作上。

    其实不然。当今 AI 的能力,能做你的超级辅助。当然,核心还得是人,这对个人的能力要求更高了。然而,对人的要求主要是什么呢?一言蔽之,快速获取框架、快速提炼和总结输出的能力。

    我们来看一个我遇到的实际案例,案例很小,但是用 AI 解决的思路很有启发。

任务是这样的,你的老板给你了一堆极度不规范的地址,需要从地址中提取规范的省份和城市信息。地址长这鬼样:

图片

    如果让你做这部分数据清洗,给你 30s 时间,思考一下?

30s 时间到!

    发现了吗?这些地址极其之乱,乱成什么样呢?(这个是 AI 总结的哦)

  1. 地址格式多样:地址中包含省、市、区、街道、门牌号、楼层、房间号等信息,且顺序和格式不统一。

  2. 省份信息不明确:部分地址中直接提到了省份名称,如“浙江省杭州市”,而有些则只提到了城市,如“广州市天河区”。

  3. 特殊区域标识:有些地址中包含了特殊区域的标识,如“中国(四川)自由贸易试验区”、“中国(上海)自由贸易试验区”。

  4. 非地址信息:有些文本看起来像地址的一部分,但实际上并不是地址信息,如“广州市天河区市场监督管理局”。

    你可能会想,我筛选关键字,比如,“广州”,手工识别后,把“广州市”填入城市,广州市归属广东省,再在省份列填入“广东省”。几十行还好,花个半个小时、 一个小时能还能忍忍。那如果有几百行,几千行地址呢?

    头痛么?头痛就对了。这个时候,求助 AI !当然,这里也是有技巧(prompt)的,技巧后面再说。就用咱中国的大模型之光 kimi 来做个示范。这个是 kimi 告诉我的解题思路。看一下 kimi 是怎么思考的。

kimi 的回答

1 、待处理地址数据特征分析

图片

2 、提供解决问题的方法和思路

图片

3 、逐步提供可操作的执行步骤

图片

4 、跟你商量这个思路行不行,不合适咱还可以调整

图片

看看,如果是你的员工,你是不是开心坏了。

能拆解任务,分析特性,并根据待处理的数据,提供大致的解题思路,还能告诉你这么做的思考理由。给了你一步一步操作的方法,还能有商有量,快速调整。

这样的员工,去哪里找!

实操和互动

如果提示词是启动,迈出了第一步。那么,接下来,你的实操以及跟 AI 的互动,则是问题能否实际落地解决的关键。你,就是现实世界和虚拟世界交互过程的关键纽带。

在和AI 商量完你认可的解决思路后。你,就可以按照步骤,执行一步步任务。

先看第一步,提取城市信息。

图片

可以看到,kimi 给了你很多方法供你选择。你逐个使用 kimi 给的公式,在 excel 上尝试,直到能完成提取任务。

眼尖的小伙伴是不是发现了,我截图中,kimi 提供的方法是有问题的。它把“浙江省杭州市西湖区”这个字符串里的“西”当做特殊字符来定位城市信息了。如果待解析的地址是“广州市黄埔区”,excel 公式就会报错。

怎么办?告诉 AI,让它改。

图片

可以看到,kimi 提供了正则表达式和不用正则表达式提取的两种选择。你可以根据你的 excel 版本来灵活选择实现方式。

完成之后,你拿到了大量的识别后的规范城市信息

图片

就可以到第二步了,找省份。

由于大量的地址里根本不包含省份信息,例如这个地址“佛山市南海区桂城街道季华东路”。甚至有些省份是直辖市,他们的市,就等于省,比如北京市。还有一些省是少数民族自治区,例如广西,不叫广西省,正确的叫法是广西壮族自治区。怎么办?

统统问 AI。这是我的问法。

图片

图片

kimi 还留着上一个 prompt 的记忆,还以为我在找他要解决方式呢。实际上,我只需要它直接返回省份匹配的结果给我。

也是一样,不要客气,直接让它改。

图片

很好,任务看似完成了。

但是,贴到 excel 的时候又有了个小问题,所有的数据挤在一行,没办法切行存储。

图片

怎么办?再调整。kimi 绝对是任劳任怨的好员工。

图片

直到这一步,这个任务就完成了七七八八了。kimi 给我的表格,是可以直接贴到 excel 里,执行 vlookup 操作的。

讲解到这里,大部分的任务已经完成了。

图片

    细心的小伙伴可能会留意到,这里还有一些问题没有解决的。

这个就需要通过再与 kimi 提问,互动解决了。例如,这个地址本来就连城市信息都没有的话,那没办法。只能筛选出来,一批批问kimi 了。

在没有用 api 接口调用服务的情况下,这类操作不是很推荐,只能是一次性操作。下次再遇到类似任务,还得再手动执行,问一次 kimi 。

看一百次不如自己手动操作一次。好了,小伙伴们探索去吧。kimi 免费哦。

感悟时间

    现实物理世界和虚拟世界(AI)之间还有巨大的鸿沟。AI所提供的解决方案,你是没办法直接套用到现实世界中的。这条沟需要人去填!

    对于未来的儿童教育,更需要极速拓宽视野。在某一个专业领域深扎,思考、内化吸收、转化、表达、整合、归纳能力。当然,还需要有一具健康的体魄,才能去好好享用这个世界。

  • 16
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值