![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
Python伊甸园
这个作者很懒,什么都没留下…
展开
-
spark.createDataFrame()报错
具体情况:将pandas中的DF转化为spark中的DF时报错,报错内容如下:spark_df = spark.createDataFrame(target_users)报错->>Can not merge type <class 'pyspark.sql.types.DoubleType'> and <class 'pyspark.sql.types.StringType'>根本原因:并非数据类型不匹配,而是数据中存在空值,将空值进行填充后成功创建。..原创 2021-03-12 15:28:44 · 2041 阅读 · 0 评论 -
Spark系列——了解Spark
Spark系列——了解Spark一、什么是Spark?1.Spark是一个分布式的并行计算框架。2.Spark是下一代的map-reduce,扩展了MR的数据处理流程。3.MR存在的问题:(1)调度慢,启动map、reduce太耗时MR:map进程,reduce进程spark:executor进程10个线程:8 map task(线程) 2 reduce(线程)...原创 2020-02-28 17:15:12 · 156 阅读 · 0 评论