- 博客(2)
- 收藏
- 关注
原创 pandas实战日志20211115——大型文件处理
背景:user_pay_view表涉及6亿条交易数据,如果直接读数据,则服务器内存很可能吃不消解决思路:分治法,使用trunk分块读数据,再进行数据预处理或聚合操作# 分块读取,每次读取一百万条数据user_pay_chunks = pd.read_csv(r'D:\data_clean\user_pay_new.csv', chunksize=1000000)# 查看每位user_id购买次数user_pay_cnt = pd.DataFrame() # 创建空的df用于接收处理后
2021-11-15 10:43:21
728
1
原创 pandas实战日志20211114——数据预处理
1、数据预处理——查看空值# 查看空值的方法shop.info() # 查看表结构,通过各字段数据类型及数据量print(shop.isnull().sum()) # 查看各字段空值数量# 输出结果1<class 'pandas.core.frame.DataFrame'>RangeIndex: 2000 entries, 0 to 1999Data columns (total 10 columns): # Column Non-Null Coun
2021-11-15 09:58:32
1336
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人