【python科学计算_pandas】应用笔记（先用着，待梳理）

最新推荐文章于 2024-09-09 23:28:21 发布

weixin_30322405

最新推荐文章于 2024-09-09 23:28:21 发布

阅读量103

点赞数

文章标签： python

原文链接：http://www.cnblogs.com/everda/p/10931050.html

版权

【python科学计算_pandas】应用笔记（先用着，待梳理）

大纲

1.dataframe&series
2.输入输出&常用函数
3.数据清洗
查看各列情况（空值数、数据类型、异常值）
空值填充
数据类型转换
异常值处理
4.数据转换
计算列
计算度量
5.数据筛选
6.高阶函数
7.透视表
8.图

一、输入输出

http://pandas.pydata.org/pandas-docs/stable/user_guide/io.html

read_csv

该函数作用就是读取csv文件存成dataframe格式。

help(pd.read_csv)
read_csv(filepath_or_buffer, sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, doublequote=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None)

filepath_or_buffer :文件路径，'F://dataset1.csv'

sep :分隔符，默认为","

delimiter :定界符，默认为空。是sep的可选参数。

header :文件中是否包含列名，可以是整形也可以是整形列表，默认自动推断。

header=None表示文件中没有列名，header=0表示第一行就是列名。

names :指定列名，数组形式，默认为空。

设置header=None，搭配name=指定列名的列表形式即可使用。

index_col :指定行索引所在列，整形或队列形式，默认为空。

其他先不管了。

二、dataframe

dataframe是一种类似二维表格的pandas独有的数据类型。

dataframe的属性：

进行数据预处理时简单查看输入数据的情况。

import pandas as pd
dataset1=pd.read_csv('E://20190527_object_sets.csv')
dataset1.head(5)#显示前5行数据
dataset1.info()#显示基础信息，如行索引范围、列名、行数、列数据类型、占内存大小
dataset1.tail(5)#显示后5行数据
dataset1.columns#显示列名
dataset1.index#显示行索引范围
dataset1.axes#显示行索引范围和列名
dataset1.T#显示行列转置后的数据
dataset1.describe()#显示每数值列的描述性统计，例如计数、中位数、标准差、四分位数

dataframe数据格式转换：

dataframe有很多好用的函数，比如输入输出函数就很方便，可以将其他数据类型与dataframe互相转换，方便使用。

将一个字典转换成dataframe
result_df=pd.DataFrame(my_dict,index=[0]).T
#result_df=pd.DataFrame.from_dict(my_dict,orient='index')

dataframe遍历每个元素：

需要输出所有数据或对某些数据加工赋值给别的变量时需要。

for index,row in dataset2.iterrows():
    print(row['subs'],row['num'])

dataframe进行筛选：

进行数据清洗和转换时需要。

#筛选出subs='CHINESE'的所有行（多条件可以用逻辑符）
dataset_chin=dataset1[(dataset1['subs']=='CHINESE')]
#指定列名筛选某几列
dataset_chin=dataset_chin[['subs','object_sets','num']]