【无标题】-CSDN博客

本文链接：https://blog.csdn.net/2303_81835136/article/details/140605700

Pandas是一个强大的Python数据分析库，它建立在NumPy之上，提供了快速、灵活且易于使用的数据结构和数据分析工具。以下是Pandas进行数据分析的重要知识点：

Series：
- Series是一种一维数组，能够容纳任何数据类型的数据。
- 它有一个索引（index）和对应的数据值（values）。
- 索引默认是从0开始的整数，但也可以自定义。
DataFrame：
- DataFrame是Pandas中最常用的数据结构，它是一个二维的、表格型的数据结构，类似于Excel中的表格或SQL中的表。
- 它由行和列组成，每列可以是不同的数据类型。
- DataFrame既有行索引也有列索引，方便数据的访问和操作。

读取数据：
- Pandas支持多种数据格式的读取，包括CSV、Excel、SQL数据库、JSON等。
- 常用的函数有read_csv()、read_excel()、read_sql()、read_table等。
- 在读取数据时，可以设置参数来控制数据的读取方式，如指定分隔符、跳过某些行、设置列名等。
- pd.read_csv() 和 pd.read_table() 的不同pd.read_csv()：专门用于读取 CSV（逗号分隔值）文件。默认情况下，它使用逗号（,）作为字段分隔符pd.read_table()：更通用一些，用于读取表格型数据，不限于 CSV 格式。默认情况下，它使用制表符（\t）作为字段分隔符。
- .tsv 和 .csv 的不同.tsv（Tab-Separated Values）：制表符分隔值文件，字段之间使用制表符（\t）分隔。这种格式常用于需要精确控制列对齐的场合，如一些文本编辑器或电子表格软件。.csv（Comma-Separated Values）：逗号分隔值文件，字段之间使用逗号（,）分隔（尽管在某些地区可能会使用其他字符，如分号（;）或冒号（:）作为分隔符）。这是最常见的表格数据存储格式之一，易于在多种程序之间交换数据。
存储数据：
- Pandas同样支持将DataFrame对象保存到各种格式的文件中，如CSV、Excel等。
- 常用的函数有to_csv()、to_excel()等。

处理缺失值：
- 使用isna()或isnull()函数检测缺失值。
- 使用fillna()函数填充缺失值，可以指定填充值或根据某种规则填充。
- 使用dropna(),关键字del函数删除包含缺失值的行或列。
处理重复值：
- 使用duplicated()函数检测重复值。
- 使用drop_duplicates()函数删除重复的行。
数据类型转换：
- 使用astype()函数转换数据列的数据类型。

# 具体请看《利用Python进行数据分析》第五章排序和排名部分

#自己构建一个都为数字的DataFrame数据
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
index=['2', '1'],
columns=['d', 'a', 'b', 'c'])

总结：

#让行索引升序排序
frame.sort_index()

#让列索引升序排列

frame.sort_index(axis=1)

#让列索引降序排列

frame.sort_index(axis=1,ascending=False)

#让任选两列数据同时降序排序
frame.sort_values(by=['a','c'],ascending=False)

ascending是确定升序降序的

四、数据探索与可视化

数据描述性统计：
- 使用describe()函数获取数据的描述性统计信息，如计数、平均值、标准差、最小值、最大值等。
数据排序：
- 使用sort_values()函数对数据进行排序，可以根据一列或多列进行排序。
数据分组与聚合：
- 使用groupby()函数对数据进行分组，然后可以使用聚合函数（如sum()、mean()、count()等）对分组后的数据进行聚合操作。
数据可视化：
- Pandas可以与Matplotlib、Seaborn等库结合使用，进行数据的可视化分析。
- 常用的绘图函数有plot()、hist()等，可以绘制折线图、柱状图、直方图等多种图表。

合并与连接：
- 使用merge()函数进行数据库的表连接操作，支持多种连接类型（如内连接、外连接等）。
- 使用concat()函数进行数据的合并操作，可以沿着行或列合并多个DataFrame。
时间序列分析：
- Pandas内置了强大的时间序列功能，支持时间索引和时间相关的操作。
- 可以方便地进行时间序列数据的分析、转换和可视化。