说明: 这里只是简单的说明了一些pandas中的一些我在毕设中使用到的函数,这个 模块的并未具体其他的一些功能并未详细的进行说明。
pandas 简单介绍
Python语言的Pandas模块是一种高效结构化数据分析工具,它在NumPy的基础上提供了DataFrame数据结构,并以此为核心提供了大量的数据的输入输出、清洗、处理和分析等一些函数
pandas 相当于 python 中 excel:它使用表(也就是 dataframe),能在数据上做各种变换,但还有其他很多功能。
pandas的引入
# as 作用是为了这个模块指定别名方便使用
import pandas as pd
pandas 导入数据
读取CSV文件中的内容:
df = pandas.read_csv(filepath_or_buffer, sep =',', usecols,names )
参数的含义
filepath_or_buffer:文件路径
sep :分隔符,默认用","隔开
usecols:指定读取的列名,列表形式
names: 指定列名
读取 Excel 中的 数据
pd.read_excel(file, sheet_name)
sheet_name参数允许指定单张表格或多张表格被读取。
sheet_name的默认值是0,这表明读取的是第一张表格。
注: 这直说了如何导入CSV文件和Excel中的数据,其他类型的可以参考pandas中文网的io工具进行学习
pandas中的一些方法
查看数据的基本信息
# 会展示data数据中是列中是数字类型的统计情况,data后面可以指定列名,查看某一列的信息data[列名]
data.describe()
该方法会显示出数据的总数,平均数,中位数,25%分为数等信息
下图为在 jupyte notebook 中使用该方法返回的示例:
查看数据的整体情况,可以查看出数据的每一列的确实情况和数据类型
dat