Pandas常用数据预处理方法

1.日期格式转换

输入日期列为object、string类型,格式是“9/14/2021”,需要转换成pandas中可计算的日期格式。实际运行后输出为“2021-09-14”。

import pandas as pd

dataframe2['日期'] = pd.to_datetime(dataframe2['日期'], format='%m/%d/%Y').dt.date

2.设置列名并删除指定列

把‘指标’列的数据当做列名后,删除‘指标’列。

	data.columns = data.loc['指标',:]
    data.drop('指标', axis=0, inplace=True)

3.添加一列新数据

在已有的数据表中,添加一列数据value,指定该列名字column和位置loc。新增数据行数与现有行数一致。

    data.insert(loc=0, column='年份', value=insertDataList)

4.按列排序, 并显示前五行

在已有的数据表中,按某列数据row_number,进行排序。

    df = df.sort_values(by='row_number', ascending=True)
    print(df.head(5))  # head()、tail()

5.直接根据条件筛选行

在已有的数据表中,按行对数据进行筛选。

	# 常规筛选><=
	data = data[(data['col']>=10) & (data['val']==100)]
    # 筛选不包含[0,1,2] List的行
	data = data[~ data['col'].isin([0,1,2])]

	# 同时也可以作为筛选包含0,1,2的行
	data = data[data['col'].isin([0,1,2])]
	
	# 如果需要匹配的话
	data = data[data['col'].str.contains('abc')]
  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值