1.读取文件参数
参数 | 说明 |
---|
filepath_or_buffer: Union[str, pathlib.Path, IO[~AnyStr]] | 文件路径或网址连接 |
sep=‘,’ | 分隔符,默认为"," |
header=‘infer’ | 是否包含列头,指定第几行位表头 |
names=None | 设置列名称 |
skiprows=None | 跳过前几行数据【重点】,跳过不需要的行索引 |
nrows=None | 只取前几行数据【重点】 |
na_values=None | 将空值填充为NAN |
keep_default_na=True | True将空值填充为NaN,False不填充空值,为空字符串 |
na_filter=True | True将空值填充为NaN,False不填充空值【可以提高读取速率】 |
dtype=None | 修改数据类型,dtype={‘positionId’: str,‘companyId’:str} |
usecols=None | 根据指定列号读取,读第 1、3、5 列,第一列索引为0,usecols=[0,2,4];根据列索引名名称获取列数据,例如usecols=[‘Province/State’,‘Country/Region’] |
index_col=None | 指定索引列,默认为None的时候,pandas会自动将第一列作为索引,并额外添加一列.大多数使用index_col=0,直接将第一列作为索引,不额外添加列【重点】 |
na_values=None | 将NULL识别为空值,将值识别为空值 |
parse_dates=False | 指定某列读取为日期格式 |
delimiter=None | 定界符,备选分隔符(如果指定该参数,则sep参数失效) |
chunksize=None | 文件块的大小,每一次读几行,返回一个迭代对象,文件大时使用,读取的每一块用for循环获得【重点】 |
error_bad_lines=True | 当某行数据有问题,不报错,直接跳过,处理脏数据时使用 |
pd.read_csv(
filepath_or_buffer: Union[str, pathlib.Path, IO[~AnyStr]],
sep=',',
header='infer',
names=None,
skiprows=None,
nrows=None,
na_values=None,
keep_default_na=True,
na_filter=True,
dtype=None,
usecols=None,
index_col=None,
na_values=None,
parse_dates=False,
delimiter=None,
chunksize=None,
error_bad_lines=True
)
2. set_option:修改显示设置
参数 | 说明 |
---|
pd.set_option(‘display.max_columns’, None) | 显示所有列 |
pd.set_option(‘display.max_columns’, 5) | 最多显示5列 |
pd.set_option(‘display.max_rows’, None) | 显示所有行 |
pd.set_option(‘display.max_rows’, 10) | 最多显示10行 |
pd.set_option(‘display.float_format’,lambda x: ‘%.2f’%x) | 显示小数位数 |
pd.set_option(‘display.width’, 100) | 显示宽度 |
pd.set_option(‘precision’, 1) | 设置显示数值的精度 |
pd.set_option(‘display.max_colwidth’,10) | 设置每列的最大宽度 |
pd.set_option(‘mode.chained_assignment’,None) | 忽略警告 |
pd.set_option(‘chop_threshold’,20) | 设置数值显示条件,小于20,显示0 |
pd.set_option(‘display.html.use_mathjax’,True) | 让dataframe中内容支持Latex显示(需要使用$$包住) |
pd.set_option(‘plotting.backend’,‘plotly’) | 修改pandas默认绘图引擎为plotly(需要提前安装好plotly) |
pd.reset_option(‘all’) | 还原所有option设置 |
pd.reset_option(‘max_rows’) | 还原默认显示的行 |
pd.reset_option(‘max_columns’) | 还原默认显示的列 |
pd.reset_option(‘display’) | 还原全部显示设置 |
3.基于style个性化设置
参数 | 说明 |
---|
data.style.hide_index() | 隐藏索引列 |
data.style.set_precision(2) | 将带有小数点的列精度调整为小数点后2位 |
data.style.set_na_rep(‘数据缺失’) | 标记缺失值,将缺失值标记为‘数据缺失’ |
data.style.highlight_null(null_color=‘skyblue’) | 将缺失值背景颜色高亮 |
data.style.highlight_max() | 将 数值格式列的最大值进行高亮 |
data.style.highlight_min() | 将 数值格式列的最小值进行高亮 |
data.style.highlight_max(color=‘#F77802’).highlight_min(color=‘#26BE49’) | 同时高量最大值最小值 |
data.style.set_properties(subset=[‘salary’],**{‘color’:‘red’}) | 修改字体颜色 |
data.style.set_properties(**{‘fontsize’:‘13px’,‘background-color’:‘#F8F8FF’,‘text-align’:‘center’}) | 修改背景颜色、对齐方式、字体大小 |
data.style.bar(subset=[‘salary’],color=‘skyblue’) | 指定列条形图 |
data.style.format({‘createTime’:lambda t:t.strftime(‘%Y年%m月%d日’)}) | 日期格式化 |
import seaborn as sns
cm=sns.light_palette('green',as_cmap=True)
data.style.background_gradient(cmap=cm)
4.保存文件参数
参数 | 说明 |
---|
na_rep | 填充缺失值 |
index=False | 取消索引 |
pd.to_csv(
na_rep,
index=False,
)
5. 其他格式文件读取