pd.DataFrame存在错位的循环对齐

pd.DataFrame存在错位的循环对齐(python)

问题描述:

在用tabula处理从pdf抓取的表格过程中,遇到了识别错位导致存在nan(空值)的情况,

需要对pd.DataFrame做调整。初始结构如下:

函数搭建

 

 1 import numpy as np
 2 import pandas as pd
 3 
 4 def df_sort(df_input):
 5     df=df_input.copy()#输入df之备份,防止更改原df_input
 6     while df.dropna(1).shape[1]<sum((df.count())/df.shape[0]):
 7         for row in range(df.shape[1]-1):    
 8             for col in range(df.shape[0]):
 9                 if pd.isnull(df)[row][col]==True:
10                     temp=df[row+1][col]
11                     df[row][col]=temp
12                     df[row+1][col]=np.nan
13     return df.dropna(1)

 

 

 结果:

---------------------------------------------------

by 伍钱居士@UIBE  2018-07-23

 

转载于:https://www.cnblogs.com/uibe/p/9357552.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值