【python科学计算_pandas】应用笔记(先用着,待梳理)

大纲

1.dataframe&series
2.输入输出&常用函数
3.数据清洗
查看各列情况(空值数、数据类型、异常值)
空值填充
数据类型转换
异常值处理
4.数据转换
计算列
计算度量
5.数据筛选
6.高阶函数
7.透视表
8.图

一、输入输出

http://pandas.pydata.org/pandas-docs/stable/user_guide/io.html

read_csv

该函数作用就是读取csv文件存成dataframe格式。

help(pd.read_csv)
read_csv(filepath_or_buffer, sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, doublequote=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None)
filepath_or_buffer :文件路径,'F://dataset1.csv'

sep :分隔符,默认为","

delimiter :定界符,默认为空。是sep的可选参数。

header :文件中是否包含列名,可以是整形也可以是整形列表,默认自动推断。

header=None表示文件中没有列名,header=0表示第一行就是列名。

names :指定列名,数组形式,默认为空。

设置header=None,搭配name=指定列名的列表形式即可使用。

index_col :指定行索引所在列,整形或队列形式,默认为空。

其他先不管了。

二、dataframe

dataframe是一种类似二维表格的pandas独有的数据类型。

dataframe的属性:

进行数据预处理时简单查看输入数据的情况。

import pandas as pd
dataset1=pd.read_csv('E://20190527_object_sets.csv')
dataset1.head(5)#显示前5行数据
dataset1.info()#显示基础信息,如行索引范围、列名、行数、列数据类型、占内存大小
dataset1.tail(5)#显示后5行数据
dataset1.columns#显示列名
dataset1.index#显示行索引范围
dataset1.axes#显示行索引范围和列名
dataset1.T#显示行列转置后的数据
dataset1.describe()#显示每数值列的描述性统计,例如计数、中位数、标准差、四分位数
dataframe数据格式转换:

dataframe有很多好用的函数,比如输入输出函数就很方便,可以将其他数据类型与dataframe互相转换,方便使用。

将一个字典转换成dataframe
result_df=pd.DataFrame(my_dict,index=[0]).T
#result_df=pd.DataFrame.from_dict(my_dict,orient='index')
dataframe遍历每个元素:

需要输出所有数据或对某些数据加工赋值给别的变量时需要。

for index,row in dataset2.iterrows():
    print(row['subs'],row['num'])
dataframe进行筛选:

进行数据清洗和转换时需要。

#筛选出subs='CHINESE'的所有行(多条件可以用逻辑符)
dataset_chin=dataset1[(dataset1['subs']=='CHINESE')]
#指定列名筛选某几列
dataset_chin=dataset_chin[['subs','object_sets','num']]
 dataframe透视表功能:

进行简单表格统计时用透视表比较快速,与excel透视表类似。

概括图如下:

 

posted on 2019-05-27 15:39 everda 阅读( ...) 评论( ...) 编辑 收藏

转载于:https://www.cnblogs.com/everda/p/10931050.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值