目录 1. pandas和pyspark对比 1.1. 工作方式 1.2. 延迟机制 1.3. 内存缓存 1.4. DataFrame可变性 1.5. 创建 1.6. index索引 1.7. 行结构 1.8. 列结构 1.9. 列名称 1.10. 列添加 1.11. 列修改 1.12. 显示 1.13. 排序 1.14. 选择或切片 1.15. 过滤 1.16. 整合 1.17. 统计 1.18. 合并 1.19. 失数据处理 1.20. SQL语句 1.21. 两者互相转换 1.22. 函数应用 1.23. map-reduce操作 1.24. diff操作 1. pandas和pyspark对比 1.1. 工作方式 pandas 单机single machine tool,没有并行机制parallelism,不支持Hadoop,处理大量数据有瓶颈 pyspark 分