pandas基本使用

萌新必备(基于大佬的整理)

新的改变

一切的开始

import pandas as pd

df代表DateFrame ser代表 Series对象

日常基本使用的操作:

  1. 从不同的文件中导入数据
  2. 导出为不同的文件格式
  3. 查看DateFrame信息
  4. 选取数据特定子集
  5. 数据清理
  6. 分组 排序 过滤
  7. 补充

导入文件

1.从csv中读取

pd.read_csv(file_name)

2.从一个分隔的文本文件中读取数据

pd.read_table(file_name)

3.从Excel表读取

pd.read_excel(file_name)

4.从数据库中读取数据

pd.read_sql(query, connectionObject)

5.从json 或 url中读取数据

pd.read_json(jsonString)

6.要获取剪贴板的内容

pd.read_clipboard()

导出文件

1.导出为csv

df.to_csv(file_name)

2.导出为csv

df.to_excel(file_name)

3.导出为csv

df.to_sql(tableName, connectionObject)

4.导出为csv

df.to_json(file_name)

查看DateFrame

1.获取所有索引 数据类型和内存相关信息

df.info()

2.提取dateframe 前面几行

df.head(n)

3.提取dateframe 最后几行

df.tail(n)

4.统计行数与列数

df.shape

5.统计字数列

df.describe()

6.查看唯一值机器计数

ser.value_counts(dropna=False)

选择数据的特定子集

1.提取第一行

df.iloc[0,:]

2.提取第一列的第一个元素

df.iloc[0,0]

3.返回标签为‘cell’的列作为Series

df[cell]

4.返回具有新数据框架的列

df([col1,col2])

5.按位置选择数据

ser.iloc[0]

6.按索引选择数据

ser.loc['index']

数据清理

1.同时命名所有列

df.rename(columns = lambda x: x + 'x')

2.选择性的重命名

df.rename(columns = {'oldName': 'newName'})

3.重命名所有索引

df.rename(index = lambda x: x + 1)

4.按顺序重命名列

df.columns = ['x', 'y', 'z']

5.检查是否为空 返回布尔值

pd.isnull() 
#  反向
pd.notnull()

6.删除含空值得记录

df.dropna()

7.删除所有含空值得列

df.dropna(axis=1)

8.用某个值代替每个空值

df.fillna(n)

9.将数据类型转化为 浮点数

ser.astype(float)

10.替换

ser.replace([1,2], ['3', '4']) 

分组排序过滤

1.返回列值得groupby

df.groupby(colname)

2.返回多列值得groupby

df.groupby([colname1, colname2])

3.升序 降序

df.sort_values(colname1)
df.sort_values(colname2, ascending=False)

4.按条件提取行

df[df[colname] > 100] 

补充

  1. datafarme 行追加到末尾
df1.append(df2)

2.datafarme 列追加到末尾

pd.concat([df1,df2],axis=1)

3.获取平均值

df.mean()

4.获取非空值得数量

df.count()
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值