Python进行数据挖掘、数据清洗、数据探索时常用pandas代码片段技巧

最新推荐文章于 2020-12-08 12:54:41 发布

Shangzhi_Yang

最新推荐文章于 2020-12-08 12:54:41 发布

阅读量192

点赞数 1

分类专栏： Data Mining with Python

本文链接：https://blog.csdn.net/chocoholic_Y/article/details/104099139

版权

Data Mining with Python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、常见pandas命令

1、pandas读取CSV和Excel文件

data = pd.read_csv(file.csv, sep, encoding, nrows, skiprows=[2,5])

sep指分隔符，encoding是字符编码，nrows表示要读取前多少行数据，skiprows=[2,5]表示在读取文件时，会移除第2、第5行。

2、pandas写数据

data.to_csv(newfile.csv, index=None)

index选项值默认为True, 所以会自动在数据中加入第一列1,2,3作为索引。

3、`data.dropna()`: 处理并删除缺失值，应用于Series和DataFrame对象。

DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)

对于DataFrame：
- axis:
  - axis = 0, 代表删除包含缺失值的行
  - axis = 1, 代表删除包含缺失值的列
- how:
  - how = ‘any’，只要有缺失值出现，就删除该行或列
  - how = ‘all’，所有的值都缺失，才删除行或列
- thresh:
  - axis中至少有thresh个非缺失值，否则删除
- subset:
  - subset = list：丢弃list中的相应属性有缺失值的行或列
- inplace:
  - inplace = False：在原数据上进行操作，返回去掉缺失值的新的copy
  - inplace = True：返回None
对于Series：
- 丢弃所有有缺失值的项

4、 `data.fillna()`：处理并填充缺失值，应用于Series和DataFrame对象。

对于DataFrame对象：
- data.fillna(0)：用0填充所有缺失值；
- data.fillna(data.mean())：用每列特征的均值填充缺失值；
- data.fillna(data.median())：用每列特征的中位数填充缺失值；
- data.fillna(method='pad/ffill')：用每列相邻的前面（上一个）的特征值填充缺失值；
- data.fillna(method='backfill/bfill)：用每列相邻的后面（下一个）的特征值填充缺失值；
- data.fillna({key:value})：用字典填充缺失值，key是每列的关键字，value是填充的值
对于Series对象：同

5、让DataFrame输出结果整行显示或自定义显示

使用以下代码，根据自己需求进行调整

pd.set_option('display.height',1000)	#显示高度
pd.set_option('display.max_rows',500)	#显示最大行数
pd.set_option('display.max_columns',500) # 显示最大列数
pd.set_option('display.width',1000)	#显示宽度

6、Python对表头重命名

# 重命名所有属性列
# 若有中文，记得加‘u’,如：[u'最大值',u'最小值']。
dataframe.columns = ['nameA', 'nameB', 'nameC', ...]
# 重命名特定属性列
dataframe.rename(columns={'old_name':'new_name'}, inplace = True)

Shangzhi_Yang

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python进行数据挖掘、数据清洗、数据探索时常用pandas代码片段技巧

附：常见pandas命令1、data.driopna(): 处理缺失值，主要应用于Series和DataFrame对象。对于DataFrame格式为：DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)axis:axis = 0, 代表删除包含缺失值的行axis = 1, 代表删除...
复制链接

扫一扫