pandas读取与保存文件参数

  • 安装
    pip install pandas==1.1.3
    

1.读取文件参数

参数说明
filepath_or_buffer: Union[str, pathlib.Path, IO[~AnyStr]]文件路径或网址连接
sep=‘,’分隔符,默认为","
header=‘infer’是否包含列头,指定第几行位表头
names=None设置列名称
skiprows=None跳过前几行数据【重点】,跳过不需要的行索引
nrows=None只取前几行数据【重点】
na_values=None将空值填充为NAN
keep_default_na=TrueTrue将空值填充为NaN,False不填充空值,为空字符串
na_filter=TrueTrue将空值填充为NaN,False不填充空值【可以提高读取速率】
dtype=None修改数据类型,dtype={‘positionId’: str,‘companyId’:str}
usecols=None根据指定列号读取,读第 1、3、5 列,第一列索引为0,usecols=[0,2,4];根据列索引名名称获取列数据,例如usecols=[‘Province/State’,‘Country/Region’]
index_col=None指定索引列,默认为None的时候,pandas会自动将第一列作为索引,并额外添加一列.大多数使用index_col=0,直接将第一列作为索引,不额外添加列【重点】
na_values=None将NULL识别为空值,将值识别为空值
parse_dates=False指定某列读取为日期格式
delimiter=None定界符,备选分隔符(如果指定该参数,则sep参数失效)
chunksize=None文件块的大小,每一次读几行,返回一个迭代对象,文件大时使用,读取的每一块用for循环获得【重点】
error_bad_lines=True当某行数据有问题,不报错,直接跳过,处理脏数据时使用
pd.read_csv(
    filepath_or_buffer: Union[str, pathlib.Path, IO[~AnyStr]],
    sep=',',							
    header='infer',						
    names=None,							
    skiprows=None,						
    nrows=None,						
    na_values=None,						
    keep_default_na=True,		
    na_filter=True,						
    dtype=None,					
    usecols=None,					
    index_col=None,						
    na_values=None,						 
    parse_dates=False,				
     delimiter=None, 
    chunksize=None,			
    error_bad_lines=True
)

2. set_option:修改显示设置

  • pd.set_option是pandas中的参数
参数说明
pd.set_option(‘display.max_columns’, None)显示所有列
pd.set_option(‘display.max_columns’, 5)最多显示5列
pd.set_option(‘display.max_rows’, None)显示所有行
pd.set_option(‘display.max_rows’, 10)最多显示10行
pd.set_option(‘display.float_format’,lambda x: ‘%.2f’%x)显示小数位数
pd.set_option(‘display.width’, 100)显示宽度
pd.set_option(‘precision’, 1)设置显示数值的精度
pd.set_option(‘display.max_colwidth’,10)设置每列的最大宽度
pd.set_option(‘mode.chained_assignment’,None)忽略警告
pd.set_option(‘chop_threshold’,20)设置数值显示条件,小于20,显示0
pd.set_option(‘display.html.use_mathjax’,True)让dataframe中内容支持Latex显示(需要使用$$包住)
pd.set_option(‘plotting.backend’,‘plotly’)修改pandas默认绘图引擎为plotly(需要提前安装好plotly)
pd.reset_option(‘all’)还原所有option设置
pd.reset_option(‘max_rows’)还原默认显示的行
pd.reset_option(‘max_columns’)还原默认显示的列
pd.reset_option(‘display’)还原全部显示设置

3.基于style个性化设置

参数说明
data.style.hide_index()隐藏索引列
data.style.set_precision(2)将带有小数点的列精度调整为小数点后2位
data.style.set_na_rep(‘数据缺失’)标记缺失值,将缺失值标记为‘数据缺失’
data.style.highlight_null(null_color=‘skyblue’)将缺失值背景颜色高亮
data.style.highlight_max()将 数值格式列的最大值进行高亮
data.style.highlight_min()将 数值格式列的最小值进行高亮
data.style.highlight_max(color=‘#F77802’).highlight_min(color=‘#26BE49’)同时高量最大值最小值
data.style.set_properties(subset=[‘salary’],**{‘color’:‘red’})修改字体颜色
data.style.set_properties(**{‘fontsize’:‘13px’,‘background-color’:‘#F8F8FF’,‘text-align’:‘center’})修改背景颜色、对齐方式、字体大小
data.style.bar(subset=[‘salary’],color=‘skyblue’)指定列条形图
data.style.format({‘createTime’:lambda t:t.strftime(‘%Y年%m月%d日’)})日期格式化
import seaborn as sns
cm=sns.light_palette('green',as_cmap=True)
data.style.background_gradient(cmap=cm)  #渐变显示数值列,将数值格式的列使用渐变色(绿色)进行显示,以突出趋势

4.保存文件参数

参数说明
na_rep填充缺失值
index=False取消索引
pd.to_csv(
	na_rep,			
	index=False,				
)

5. 其他格式文件读取

  • xls文件读取
    data=pd.read_excel('data/a.xls', sheet_name='sheet1')
    data
    
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

荼靡~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值