pandas对字段进行唯一值编号---ngroup(), rank(), LabelEncoder()方法

解决问题描述:如某一字段中有n个用户,而我们要用数字1到n(要从0开始直接减1即可)表示这n个用户,如果原来的这个用户字段以字符表示或者用户数字编号不连续,则需要重新编码,效果如下:

1.   df.groupby().ngroup() 方法(编码从0开始),以下方法结果一致,不再贴结果图

import pandas as pd
df=pd.read_excel(path,sheet_name=0)
users_id = df.groupby('用户').ngroup()
df['编号'] = users_id+1
df

2. df.rank()方法(编码从1开始)

import pandas as pd
df=pd.read_excel(path,sheet_name=0)
users_id = df['用户'].rank(method='dense')
df['编号'] = users_id
df

3. sklearn.preprocessing.LabelEncoder() 方法(编码从0开始)

from sklearn.preprocessing import LabelEncoder
scale = LabelEncoder()
users_id = scale.fit_transform(df['用户'])
df['编号'] = users_id+1
df

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值