大数据
yin19930412
这个作者很懒,什么都没留下…
展开
-
在同一节点启动多个spark master(worker)
在已经启动spark master(worker)的机器上再启动master,提示错误:org.apache.spark.deploy.worker.Worker running as process XXXXX. Stop it first.根据抛出错误的源码,可得解决方法:export SPARK_IDENT_STRING=foo (默认为用户名, woker节点同样需要设置才可匹配)...原创 2018-11-26 20:14:18 · 2875 阅读 · 2 评论 -
spark cache (几种缓存方法)
sql语句中cache //缓存全表 sqlContext.sql("CACHE TABLE activity") //缓存过滤结果 sqlContext.sql("CACHE TABLE activity_cached as select * from activity where ...") //取消缓存 sqlContext.sql("UNCACHE TABLE activi...原创 2018-11-27 21:54:48 · 3345 阅读 · 0 评论 -
spark-sql broadcast join的一个注意点
1 spark-sql的broadcast join需要先判断小表的size是否小于spark.sql.autoBroadcastJoinThreshold设定的值(byte).2 在spark中size的估算表示为statistics类,仅对hive relation 有效,因为其最初是从hive元数据库中读取所需的统计值的.因此对于jdbc relation等来说,无法触发broadcast...原创 2018-11-27 22:03:52 · 2502 阅读 · 0 评论