spark
魔生
这个作者很懒,什么都没留下…
展开
-
异常:Randomness of hash of string should be disabled via PYTHONHASHSEED
异常描述:使用Yarn-client模式提交脚本时报异常 解决方案1(无效):打印输出结果:None 解决方案2(成功):修改spark-defaults.conf 备注:1. 方案2适用于解决yarn-client模式下提交时的异常2. 等号后的0也可以是其他值 ...原创 2018-08-03 21:26:47 · 848 阅读 · 0 评论 -
异常:Some of types cannot be determined by the first 100 rows, please try again with sampling
将RDD转为DataFrame的方式有:1. 将RDD转换为Row,之后创建dataframerdd = stringCSVRDD.map(lambda p: Row(id=p[0], name=p[1], age=p[2], eyeColor=p[3]))df = spark.createDataFrame(rdd)通过该方式创建dataframe,书写简单,字段类型通过前100条...原创 2018-08-04 11:44:40 · 1823 阅读 · 0 评论 -
Spark配置参数详解
以下是整理的Spark中的一些配置参数,官方文档请参考Spark Configuration。Spark提供三个位置用来配置系统:Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或者Java系统属性设置环境变量:可以通过每个节点的conf/spark-env.sh脚本设...转载 2018-08-06 11:13:43 · 239 阅读 · 0 评论 -
在spark上运行Python脚本遇到“ImportError: No module name xxxx”
原文链接:https://blog.csdn.net/wangxiao7474/article/details/81391300在spark上运行Python脚本遇到“ImportError: No module name xxxx”这是因为运行Python脚本的集群上的Python环境里缺乏脚本运行需要的依赖。根据所需依赖的不同性质可以分为3类:(1)单个的*.py...转载 2018-08-08 18:47:02 · 1160 阅读 · 0 评论