![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
Python伊甸园
这个作者很懒,什么都没留下…
展开
-
spark.createDataFrame()报错
具体情况:将pandas中的DF转化为spark中的DF时报错,报错内容如下: spark_df = spark.createDataFrame(target_users) 报错->>Can not merge type <class 'pyspark.sql.types.DoubleType'> and <class 'pyspark.sql.types.StringType'> 根本原因:并非数据类型不匹配,而是数据中存在空值,将空值进行填充后成功创建。 ..原创 2021-03-12 15:28:44 · 2040 阅读 · 0 评论 -
Spark系列——了解Spark
Spark系列——了解Spark 一、什么是Spark? 1.Spark是一个分布式的并行计算框架。 2.Spark是下一代的map-reduce,扩展了MR的数据处理流程。 3.MR存在的问题: (1)调度慢,启动map、reduce太耗时 MR:map进程,reduce进程 spark:executor进程 10个线程:8 map task(线程) 2 reduce(线程) ...原创 2020-02-28 17:15:12 · 156 阅读 · 0 评论