机器学习(提前篇):pandas库(基础)
下面是我在学习pandas库的时候总结出的比较常用的几个函数,在这里做一下笔记以防忘记。
1. Pandas读取外部数据
读取函数 | 函数作用 |
---|
pd.read_csv(filename) | 导入csv文档 |
pd.read_table(filename) | 导入分割的文件文本(如TSV) |
pd.read_excel(filename) | 导入Excel文档 |
pd.read_sql(query, connection_object) | 读取SQL表/数据库 |
pd.read_json(json_string) | 读取JSON格式的字符串,URL或文件 |
pd.read_html(url) | 解析Html URL, 字符串或文件,并将表提取到数据框列表 |
pd.read_clipboard() | 获取剪切板的内容并将其传给read_table() |
写入函数 | 函数作用 |
---|
df.to_csv(filename) | 写入csv文件 |
df.to_excel(filename) | 写入excel文件 |
df.to_sql(table_name, connection_object) | 写入一个SQL表 |
df.to_json(filename) | 写入JSON格式的文件 |
2.Pandas数据结构
数据结构 | 维数 | 说明 |
---|
Series | 1 | 序列/系列;一维数组 |
DataFrame | 2 | 数据框/表格;二维数组 |
Panel | 3 | 面板;三维数组 |
3.数据框数据的索引于选取
选取对象 | 方法 |
---|
行列 | df[] |
区域 | df.loc[], df.iloc[], df.ix[] |
单元格 | df.at[] , df.iat[] |
选取方法 | 说明 |
---|
loc[] | 根据index行标签或colmun列名称来选取 |
iloc[] | 基于行/列的position(行数列数) |
4.Pandas描述性统计
函数 | 描述 |
---|
df.count() | 非空观测数量 |
df.sun() | 所有值的和 |
df.mean() | 所有值的平均值 |
df.median() | 所有值的中位数 |
df.mode() | 值的模值 |
df.std() | 值的标准差 |
df.min() | 所有值中的最小值 |
df.max() | 所有值中的最大值 |
df.abs() | 绝对值 |
df.prod() | 数组元素的乘积 |
df.cunsum() | 累计总和 |
df.cumprod() | 累计乘积 |
5.判断空值函数
函数 | 作用 |
---|
pd.dropna(axis=0, how=‘any’,thresh=None,subset=None,inplace=False) | (1)axis:维度,axis=0表示行,1表示列 (2)how:"all"表示这一行或列中的元素完全消失才删除这一行或列,“any”表示只要有数值为空,即删除这一行(3)thresh:表示这一行或列出现多少个空才删除 |
pd.fillna(value=None,method=Node,inplace=False,limit=None,downcast=None,**kwargs) | (1)value:用什么值去填充缺失值。(2)axis:确定填充维度。 |
pd.isna() | 判断是不是缺失值 |
pd,isnull() | 判断是不是缺失值 |