python如何给某列数据打标签_Python map, apply, transform 打标签方法汇总(初阶到高阶)...

本文介绍如何使用Python的map、apply和transform函数对数据进行复杂标签处理,例如将地区拼音转中文,对数值列进行分层,以及计算房价相对于地区平均值的高低。通过实例展示了在房价数据分析中应用这些方法,增强数据可读性和模型输入变量的有效性。
摘要由CSDN通过智能技术生成

前言

根据数据的某列进行打标签这个操作在数据分析领域极度常用,对于一些较为复杂的打标签方法,Python 与 SQL 都能很好的实现,这篇针对 Python,主要用到 map,apply 与 transform 等函数,从初阶到高阶,体会方法的异同优劣。

实现效果

针对北京某地区房价数据进行数据分析过程中的打标签操作,增加可读性的同时也可以根据源数据集来增加一些本来没有的变量,并对并生成可能会对模型精度有提升效果的布尔变量。

源数据(一小部分)

需求:将地区列 dist 的拼音全部转换成对应的中文

生成一列每个地区各自的房价平均值,并与源数据的房价对比,看该地区的某一房价是在平均值之上还是平均值之下。

map 字典映射法

看图即可理解用法,dist 列的拼音全部变成了对应的中文。

apply 法

刚刚的 map 针对的是 “静态数据”,即为名义变量,“动态数据” 如 roomnum 房间数量列则为数值变量,既然是数值变量,那数目肯定非常多,像 AREA 面积列,分类后的唯一固定值太多了,不像地区那样就那么六个,这时候就可以祭出 apply 了。同样,作为必会且极度出名的 apply,使用方法也无须多言,直接上效果图。

需求:给房间数目 roomnum 分层1 ~ 2 个:少(0)

3 个或以上:多(1)

重点来了!如果刚才的操作都还算简单,那根据地区划分的平均房价变量呢,即每个地区某一房价与其所在地区的平均房价相比,听起来有点拗口。下面拆解流程

先探索性数据分析查看一下各地区的平均房价分布情况

分组求每个地区的房价平均值,并转化成字典

还有没有更能体现实力的方法呢?—— transform

transform 作用机理

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值