dataframe修改列名_python dataframe操作大全数据预处理过程(dataframe、md5)

  1. hive表的特征选择,不同表之间的join
  2. 训练数据、测试数据的分开保存
  3. 使用pandas进行数据处理
  • 显示所有列:pd.set_option('display.max_columns', None)
  • 显示所有行:pd.set_option('display.max_rows', None)
  • 单列运算:df['col2'] = df['col1'].map(lambda x: x**2)
  • 多列运算:df['col3'] = df.apply(lambda x: x['col1'] + 2 * x['col2'], axis=1)
  • 修改列类型:df[[column]] = df[[column]].astype(type)
  • 保存成csv: df2.to_csv(path_or_buf=r'D:workdatasetdata.csv', sep=', ', na_rep='', float_format=None, columns=None,header=True, index=True)
def 

dataframe某列进行MD5加密处理很方便

def 

DataFrame的columns重命名

  1. 部分重命名columns = dict,使用字典类型的数据对列进行重命名
  2. 全部重命名 columns = new_columns,新列名的长度必须与旧列名一致
  3. 读取文件的时候重命名 names = new_col,可以在读取文件的时候,给出新列名
dataframe

Pandas 过滤dataframe中包含特定字符串的数据

df 
0 0faf4671f767a615b12e9666b84cea9c
1 1e9b02f11ccb70591b99557be06dd809
2 d52f407e4f0f8f7cbbc764292533f5ce
3 d249ba2af4ce5c9741c9722d2f4f39aa
4 43184e73dd23c8c69acfe870368ca2c7
Name: device_id, dtype: object
247 95858ab4a194aecdd80304fbf5a93101
302 6d3e505235b9023c4a2f965af1750001
728 78497f37278a11edc1c75e80f4d61a01
814 949be0d48d7fa19dee60206eceb19d01
1750 fc6fb233bebed6fc6ca5b3bf103f1701
Name: device_id, dtype: object
Process finished with exit code 0
print

8e65f7256eed54e248f56237fbb66323.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值