AI实践 Task02-Pandas入门
导入
import pandas as pd
数据结构
- Series是一种一维数据结构,每一个元素都带有一个索引,其中索引可以为数字或字符串。其基本数据结构包括索引列和单列的数据列。
- Dataframe是一种二维数据结构,数据以表格形式(与excel类似)存储,有对应的行和列。其基本数据结构为索引列和多列数据。
读取csv/tsv
-
csv:
pd.read_csv()
-
tsv:
pd.read_table()
-
sep
参数指定分隔符 -
names
参数指定列名(右对齐) -
index_col
参数指定索引列 -
chunkersize
参数指定分块大小
相关函数
数据分析
loc/iloc
/索引 读取指定行/列数据isnull/isna
分析空数据head/tail
读取头/尾数据info
查看数据基本信息describe
获取数据统计信息rank
获取排名value_counts
获取计数max/min/median/count/mean
最大值/最小值/中位数/计数/均值
数据处理
inplace
参数指定是否替换原始数据
-
rename(columns=map)
以映射表重命名列名map={ 'key':'translate' ... } df.rename(columns=map,inplace=True)
-
reset_index()
重置索引序列 -
索引中使用布尔表达式 进行条件筛选
数据保存
to_csv('filename',index=False)
保存csv至指定目录