【本文作者:擎创科技资深产品专家 布博士。日常研究大模型。原文较长,分两篇发。】
背景介绍
北京积分落户政策通过积分评估,优化人口结构,控制城市规模,确保资源合理分配。它吸引高素质人才,提升城市创新力和竞争力,促进社会稳定与融合,为城市可持续发展提供保障。
北京积分落户政策和评分标准,可以登录北京人力资源和社会保障局获取,地址:https://rsj.beijing.gov.cn/ywsite/jflh/。
通过分析2024年的积分落户结果数据,我们发现了许多有趣的结果,在总结的部分,可以指导未来申请积分落户人员更好地通过正当的渠道获取北京的落户资格。
数据分析方法
数据来源我们使用2024年北京积分落户的最终结果数据,一共包括6002条样本记录,我们通过这些数据进行总结分析。数据样例如下:
分析工具我使用的是ChatGPT 4o,它主要优化如下:
-
- 提供了一种基于自然语言的交互式数据探索和分析能力
-
- 能够根据数据特征给出很多的分析建议,由数据分析师自行决定要分析哪些纬度
-
- 适用于不同领域的数据分析任务
-
- 交互式搜索和分析界面、可视化展示界面友好。
ChatGPT的并互式数据探索分析
我们可以通过聊天窗口,直接上传数据文件:
在上传文件的同时也可以直接向chatgpt下指令”请分析一下,该数据为2024年积分落户名单,从这些变量中可以分析哪些有趣的事情?“,如下图展示了上传的数据表格内容,右侧窗口为指令窗口,展示有趣的事情的分析结果说明,这些说明其实就提供给了我们数据分析的纬度。
分析哪些加分项在影响积分落户
分析哪些加分项在影响积分落户的最终结果,通过可视化能力展示了各变量对最终影响落户的影响,并且chatgpt也总结说明如下:
-
教育背景:与总分的相关性为0.270,说明教育背景对总分有较为正面的影响。
-
合法稳定就业:相关性为0.242,说明合法稳定就业对总分有较大的贡献。
-
合法稳定住所:相关性为0.226,也对总分有积极影响。
-
荣誉表彰:虽然相关性较低(0.087),但仍然有一定的正面影响。
说明影响积分落户的最关键因素即是这些,后面我们在进行分析时,也可以重点关注这些特征变量的表现。
各年龄段人员落户占比
首先,展示的是年龄分布情况,按照所有数据特征,chatgpt自动的数据分为了20-29,30-39等5个年龄段,并以饼状图展示积分落户的情况,可以看出40-49岁这个年龄段的人群占比最高,全部6002个积分落户人员中有5793人是属于该年龄段的。
对数据进行加工,增加一列出生年份
后续,我们要对不同出生年份的人进行统计,因此,需要在原有的数据集上增加一列出生年份,其是从“出生年月”字段获取的,因此我们要求“增加一列'出生年份',从'出生日期'中获取,并展示最新的数据如下:
去掉针对分析无用的字段
在这些字段中,我们进行分析时其实并不需要“姓名”、“出生年月”这些字段,我们可以要求chatgpt从数据集中去掉:
统计每个单位的落户汇总数据,并柱状图展示top -10
我们来分析一下,按不同单位进行汇总,并柱状图展示各单位的积分落户人数,可以看到chatgpt自动将落户人数最多的前10个单位展示了出来。
增加一列“年龄分布”
增加一列年龄分布,后面统计不同年龄段落户的情况。在这里我们使用的few-shot的提示词工程技巧,下指令的同时,增加了两个示例,即1970-1979的定义为70后,这样chatgpt就可以有效地对我们下的指令按照示例进行处理。
按年龄分布进行统计,并柱状图展示
按年龄分布进行分析的结果如下图所示,80后为主要的落户群体。
按出生年份进行汇总统计,并以柱状图展示
按出生年份查看分析结果,可以看出81年是今年的落户主流群体,而落户的绝大数人群都聚集在1977-1984之间。
———— 未完待续 ————