数据分析之 pandas操作基础 (DataWhale第一章)
documentation:https://pandas.pydata.org/pandas-docs/stable/index.html
import pandas as pd
导入数据
- pd.read_csv(filename):从CSV文件导入数据
- pd.read_csv(filename ,chunksize): 从CSV文件导入数据,每xx行为一个数据模块,逐块读取
- pd.read_table(filename):从限定分隔符的文本文件导入数据
- pd.read_excel(filename):从Excel文件导入数据
- pd.read_sql(query, connection_object):从SQL表/库导入数据
- pd.read_json(json_string):从JSON格式的字符串导入数据
- pd.read_html(url):解析URL、字符串或者HTML文件,抽取其中的tables表格
- pd.read_clipboard():从你的粘贴板获取内容,并传给read_table()
- pd.DataFrame(dict):从字典对象导入数据,Key是列名,Value是数据
查看、检查数据
- df.head(n):查看DataFrame对象的前n行
- df.tail(n):查看DataFrame对象的最后n行
- df.shape():查看行数和列数
- df.info():查看索引、数据类型和内存信息,行和列数
- df.describe():查看数值型列的汇总统计,样本数据的个数,平均值、标准差、max、min、25%时的值
- df.isnull().head():判断数据是否为空,为空的地方返回True,其余地方返回False
- df.columns :查看DataFrame数据的每列的项
- df.‘ColumnName’ / df.['ColumnName'] : 查看某一列的所有项
- s.value_counts(dropna=False):查看Series对象的唯一值和计数