Pandas数据分析——常用操作

引言

Pandas是一种常见且便捷的数据处理库,为便于使用和复习,个人针对一些常用操作进行了总结。


一、pandas是什么?

示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。

二、pandas常用操作有哪些?

【快速了解可参考目录】

1.导入、保存数据

1.1导入数据

import pandas as pd

# 1.直接导入
data = pd.read_csv("./data.csv", sep=",")
print(data)

# 2.特殊情况导入
# header=None可不导入列索引,engine="python"可以避免文件路径中有中文, encoding="utf_8_sig"可以使读取的内容中有中文
data = pd.read_csv("./data.csv", sep=",",header=None, engine="python", encoding="utf_8_sig")
print(data)

1.2保存数据

import pandas as pd

# index=False导出的文件没有行索引, header=False导出的文件没有列名
data.to_csv("./file/data_name.csv", index=False, header=False)

2.创建(DataFrame)

import pandas as pd
import numpy as np

# 创建一个numpy二维数组
df = np.arange(16).reshape((4,4))

data1 = pd.DataFrame(df, index=list("abcd"), columns=list("wxyz"))
print(data1)

data2 = pd.DataFrame(df, index=["A","B","C","D"], columns=["W","X","Y","Z"])
print(data2)

data1data2


3.索引

3.1 按位置索引

# 返回坐标(1,2)的值
data.iloc[1, 2]

# 返回第一列的所有值
data.iloc[:, 0]

# 返回第二行所有的值
data.iloc[1, :]

3.2 按名称索引

# 返回上面第2小节中data2的W列数据
data2.loc[:, "W"]

# 返回上面第2小节中data2的W、Z列数据
data2.loc[:, ["W", "Z"]]

在这里插入图片描述在这里插入图片描述


4.修改

4.1 增

import pandas as pd
import numpy as np

data = np.arange(12).reshape((3,4))
data = pd.DataFrame(data, index=["A","B","C"], columns=["One","Two","Three","Four"])
print(data)

# 增加一列
data["Five"] = [0,0,0]

# 增加一行
data.loc["D"]=[6,6,6,6]

增加前增加列增加行

4.2 删

import pandas as pd
import numpy as np

data = np.arange(12).reshape((3,4))
data = pd.DataFrame(data, index=["A","B","C"], columns=["One","Two","Three","Four"])
print(data)

# 删除,axis=1表示列方向, 列名:Two, inplace=True表示在原数据上修改
data.drop(['Two'], axis=1, inplace=True)

# 删除,axis=0表示列方向, 列名:C, inplace=True表示在原数据上修改
data.drop(['C'], axis=0, inplace=True)

删除前删除列删除行

4.3 查&改

: 对应第3节的索引
:索引目标位置后直接赋值


5.统计分析

5.1 相关性分析

import matplotlib.pyplot as plt
import seaborn as sns

print(data)
matrix = data.corr()
cmap = sns.diverging_palette(250, 15, s=75, l=40, n=9, center="light", as_cmap=True)

plt.figure(figsize=(12, 8)) 
sns.heatmap(matrix,  center=0, annot=True, fmt='.2f', square=True, cmap=cmap)

data
相关系数矩阵图


总结

本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。后面会根据需要继续增加和完善文章内容。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值