pandas
猪逻辑公园
数据分析 机器学习 NLP 风控 营销推荐
展开
-
pandas Dataframe减少数据的内存
def reduce_mem_usage(df, verbose=True): numerics = ['int16', 'int32', 'int64', 'float16', 'float32', 'float64'] start_mem = df.memory_usage().sum() / 1024**2 for col in df.columns: col_type = df[col].dtypes if col_type in n.转载 2020-09-30 13:57:32 · 574 阅读 · 0 评论 -
使用pandas如何进行速度提升
前言当大家谈到数据分析时,提及最多的语言就是Python和SQL。Python之所以适合数据分析,是因为它有很多第三方强大的库来协助,pandas就是其中之一。pandas的文档中是这样描述的:“快速,灵活,富有表现力的数据结构,旨在使”关系“或”标记“数据的使用既简单又直观。”我们知道pandas的两个主要数据结构:dataframe和series,我们对数据的一些操作都是基于这两个...转载 2019-12-11 16:54:53 · 508 阅读 · 0 评论 -
None vs NaN要点总结
在pandas中, 如果其他的数据都是数值类型, pandas会把None自动替换成NaN, 甚至能将s[s.isnull()]= None,和s.replace(NaN, None)操作的效果无效化。 这时需要用where函数才能进行替换s.where(s.notnull(), None)。 None能够直接被导入数据库作为空值处理, 包含NaN的数据导入时会报错。 numpy和pandas...转载 2019-11-13 11:39:41 · 264 阅读 · 0 评论 -
pandas用法收集
pandas用法大全Pandas 中 SettingwithCopyWarning 的原理和解决方案原创 2018-11-14 15:20:31 · 164 阅读 · 0 评论 -
【Pandas】Pandas处理大数据集的方法(内存优化,减少内存使用量90%)
目录将内存使用量减少高达90%的方法使用棒球比赛日志数据帧的内部表示了解子类型使用子类型优化数值列将Numeric与String存储进行比较使用分类优化对象类型读取数据时选择类型分析棒球比赛总结和后续步骤将内存使用量减少高达90%的方法当使用具有小数据(小于100兆字节)的pandas时,性能很少成为问题。当我们迁移到更大的数据(100兆字节到...转载 2019-04-25 17:44:06 · 1082 阅读 · 0 评论