《深入浅出Pandas：利用Python进行数据处理与分析》——第1部分 Pandas入门

raykingl

已于 2022-09-28 22:29:30 修改

阅读量2.5k

点赞数

分类专栏： # 数据挖掘文章标签： python pandas 数据分析

于 2022-09-28 22:20:27 首次发布

本文链接：https://blog.csdn.net/weixin_38979465/article/details/127081851

版权

数据挖掘专栏收录该内容

5 篇文章 1 订阅

订阅专栏

文章目录

1.快速入门
2.数据结构

书籍资料：《深入浅出Pandas：利用Python进行数据处理与分析》
书籍数据集：
https://www.gairuo.com/file/data/dataset/team.xlsx
https://www.gairuo.com/file/data/dataset/sample-salesv3.xlsx
https://www.gairuo.com/file/data/dataset/GDP-China.csv
https://www.gairuo.com/file/data/dataset/countries-aggregated.csv
https://www.gairuo.com/file/data/dataset/iris.data

1.快速入门

pandas支持数据读取、查看、查找【筛选】、分组聚合、数学统计、可视化【GET，这点之前忽略了】、输出导出等。练习练习，沉住气，虽然这部分已经非常熟练了。

# %%
# 《深入浅出Pandas：利用Python进行数据处理与分析》配套数据集
data_urls = """
https://www.gairuo.com/file/data/dataset/team.xlsx
https://www.gairuo.com/file/data/dataset/sample-salesv3.xlsx
https://www.gairuo.com/file/data/dataset/GDP-China.csv
https://www.gairuo.com/file/data/dataset/countries-aggregated.csv
https://www.gairuo.com/file/data/dataset/iris.data
"""

# %%
# 下载数据集
import os
data_dir = './datasets/'
for url in data_urls.split():
    os.system(f"wget -O {data_dir}/{url.rsplit('/')[-1]} {url}")

# %%
# 初步认识数据
import pandas as pd
df = pd.read_excel(os.path.join(data_dir,'team.xlsx'))  # 读取数据,xlsx读取可能会缺依赖，根据提示conda或pip安装
n = 3  # 准备查看的数据量
df.head(n)  # 查看前n条

# %%
df.tail(n)  # 尾部n条

# %%
df.sample(n)  # 随机三条

# %%
df.shape, df.dtypes, df.axes, df.columns  # 分布为数据行列数、各字段数据类型、行列名、列名

# %%
df.info()  # 数据的一些基本信息

# %%
df.describe()  # 数据的数学统计信息:

# %%
df.set_index('name', inplace=True)  # 将字段"name"建立为索引，inplace表示原表修改，pandas常用参数
df 

# %%
# 列选择
df['Q1']  # 选择'Q1'列， 列选择方法
# or
df.Q1  # 需注意的是，当字段名Q1包含一些特殊字符，比如空格、:时，此方法失效
df[['Q1','Q2']]  # 多列选择，此方法也可以用于交换不同列的顺序

# %%
# 行选择
df[df.index=='Ack']  # 前面已经将name字段标记为索引
# 支持分片，类似列表
df[:10]  # 前10行

# %%
# 图，可视化
df.Q1.plot()

# %%
# 饼图
df.loc['Ben','Q1':'Q4'].plot.pie()

# %%
# 排序
df.sort_values(['Q1', 'Q2'], ascending=[False, True])  # 可单列，也可以多列排序

# %%
# 分组聚合
df.groupby(by='team').sum()
# 转置
df.groupby(by='team').sum()

# %%
df['total'] = df.apply(lambda x:sum(x['Q1':'Q4']), axis=1)  # axis= 0 表示对横轴，axis=1表示对纵轴方向 数据进行操作，这里有点绕，横轴方向数据操作表现为对列操作[横向为各个列数据]，纵轴方向数据操作表现为对行操作[纵向为行数据]
df
# %%
df.mean(axis=0)  # axis默认为0，对横轴操作，返回各列的均值
df.mean(axis=1)   # 纵轴操作，返回各行的均值
# or
df.mean(1)

2.数据结构

数据结构：组织数据、存储数据的方式。
Python:Python数据类型，数字、字符、列表、元组、字典、集合等。【熟悉和精通之间】
Numpy:高性能矩阵运算的课，Pandas的依赖，掌握该部分内容不是学习pandas的先决条件。【后续学习，科学计算的重要库】。
Numpy数据结构：ndarray【存储数据的多维数组】、ufunc【处理数组的函数】
Pandas数据结构：Series【带标签的一维数组】、DataFrame【二维数据结构，矩阵，有行列名】，重要，pandas的基础。
数据创建：可以从列表、字典等方法生成series和DataFrame
常见数据类型

float，浮点型
int，整型
bool，布尔型
几个时间日期的类型：
datetime64[ns]
datetime64[ns,tz]
timedelta64[ns]
timedelta64[ns]
-category 【还未用过，盲区】
-object
-string

支持数据类型判断:

pd.api.types.is_bool_dtype(s)  # 布尔判断，此类的类型判断还有很多

raykingl

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
《深入浅出Pandas：利用Python进行数据处理与分析》——第1部分 Pandas入门

python数据分析pandas快速概览
复制链接

扫一扫

专栏目录