说明: 这里只是简单的说明了一些pandas中的一些我在毕设中使用到的函数,这个 模块的并未具体其他的一些功能并未详细的进行说明。
pandas 简单介绍
Python语言的Pandas模块是一种高效结构化数据分析工具,它在NumPy的基础上提供了DataFrame数据结构,并以此为核心提供了大量的数据的输入输出、清洗、处理和分析等一些函数
pandas 相当于 python 中 excel:它使用表(也就是 dataframe),能在数据上做各种变换,但还有其他很多功能。
pandas的引入
# as 作用是为了这个模块指定别名方便使用
import pandas as pd
python pandas 中如何禁用科学计数法显示
pd.set_option('display.float_format',lambda x : '%.2f' % x)
pandas 导入数据
读取CSV文件中的内容:
df = pandas.read_csv(filepath_or_buffer, sep =',', usecols,names )
参数的含义
- filepath_or_buffer:文件路径
- sep :分隔符,默认用","隔开
- usecols:指定读取的列名,列表形式
- names: 指定列名
读取 Excel 中的 数据
pd.read_excel(file, sheet_name)
- sheet_name参数允许指定单张表格或多张表格被读取。
- sheet_name的默认值是0,这表明读取的是第一张表格。
注: 这直说了如何导入CSV文件和Excel中的数据,其他类型的可以参考pandas中文网的io工具进行学习
保存数据
注意:index=None :表示的是去除列索引
如果你想追加文件的话:加上参数 mode=‘a’
如:
df1.to_csv('Result1.csv',index=None,mode='a')
pandas中的一些方法
查看数据的基本信息
# 会展示data数据中是列中是数字类型的统计情况,data后面可以指定列名,查看某一列的信息data[列名]
data.describe()
该方法会显示出数据的总数,平均数,中位数,25%分为数等信息
下图为在 jupyte notebook 中使用该方法返回的示例:
查看数据的整体情况,可以查看出数据的每一列的确实情况和数据类型
data.info()
示例图如下:
统计出现的次数
df[ column_1 ].value_counts()
- value_counts() 统计该列中每一项出现的次数
- value_counts() 后面可以进行切片,进行选择输出
上面的内容 可以使用for循环将处理后的数