Spark
Michael-JOE
这个作者很懒,什么都没留下…
展开
-
[Spark/Hive] -- Spark执行jar包
./spark-submit \--master yarn \--deploy-mode client \--num-executors 10 \--executor-memory 2g \--executor-cores 2 \--driver-memory 1g \--conf spark.default.parallelism=1000 \--conf spark.suffle.memoryFaction=0.3 \--hiveconf hive.cli.print.header=.原创 2020-12-11 11:04:54 · 421 阅读 · 0 评论 -
[Spark/Hive] -- Hive启停命令
1、启动命令#!/bin/bashnohup hive --service metastore >> $HIVE_HOME/log/metasotre.log 2>&1 &nohup hive --service hiveserver2 >> $HIVE_HOME/log/hiveserver.log 2>&1 &2、停止命令#!/bin/bashprocess="hive"PID=$(ps x | grep原创 2020-12-11 10:45:45 · 1036 阅读 · 0 评论 -
[Spark/Hive] -- Spark UDF
1、定义UDFimport java.util.Randomdef randomPrefixUDF(value: String): String = { new Random().nextInt(10).toString() + "_" + value.toInt}def removePrefixUDF(value: String): String = { value.split("_")(1)}2、注册UDFspark.udf.register("random_pre原创 2020-12-11 09:20:12 · 225 阅读 · 0 评论 -
[Spark/Hive] -- 参数备忘
1、去除表名hive.resultset.use.unique.column.names=false;原创 2020-11-20 16:40:10 · 307 阅读 · 0 评论 -
[Spark/Hive] -- Spark操作Hive
1、下载spark并解压wget http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.3.4/spark-2.3.4-bin-hadoop2.6.tgztar zxvf spark-2.3.4-bin-hadoop2.6.tgz2、配置1)将hive-site.xml拷贝到$SPARK_HOME/conf目录下。2...原创 2019-11-06 11:45:39 · 152 阅读 · 0 评论 -
Hive无法读取Parquet
查询Hive表,报错:Failed with exception java.io.IOException:parquet.io.ParquetDecodingException: Can not read value at 0 in block -1 in file hdfs://xxx:8020/user/hive/warehouse/tmp.db/table1/part-00000.snapp...原创 2019-08-02 10:01:50 · 3396 阅读 · 0 评论 -
Spark保存到Phoenix错误:org.apache.phoenix.mapreduce.PhoenixOutputFormat not found
1)Hadoop集群: cdh5.13.02)Phoenix版本: 4.14.0-cdh5.13.23)Spark版本: SPARK2-2.4.0.cloudera1-1.cdh5.13.33)代码: df.saveToPhoenix(Map("table" -> table_name, "zkUrl" -> zkUrl))4)...原创 2019-06-27 13:57:11 · 966 阅读 · 0 评论 -
java.lang.NoSuchMethodError: com.lmax.disruptor.dsl.Disruptor.<init>
spark操作HBase:19/06/14 16:08:22 ERROR executor.Executor: Exception in task 2.0 in stage 1.0 (TID 5)com.google.common.util.concurrent.ExecutionError: java.lang.NoSuchMethodError: com.lmax.disruptor....原创 2019-06-14 16:33:40 · 3401 阅读 · 1 评论 -
java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/types/DataType
spark操作hbase时报错,错误截图:解决方案:配置文件hadoop-env.sh增加:export HADOOP_CLASSPATH=/opt/cloudera/parcels/CDH/lib/hbase/lib/*:$HADOOP_CLASSPATH注:不需要重启集群。...原创 2019-06-14 16:04:46 · 1127 阅读 · 1 评论 -
spark-shell报ClosedChannelException解决方案
运行 spark-shell --master yarn-client,报错如下:解决办法: 先停止YARN服务,然后修改yarn-site.xml,增加以下内容:<property> <name>yarn.nodemanager.vmem-check-enabled</name> <value>false</val...原创 2018-09-26 22:16:36 · 541 阅读 · 0 评论 -
重新编译spark源码,使CDH支持spark sql
1、编辑$MAVEN_HOME/bin/mvn文件,增加配置:MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"2、执行mvn命令:mvn -Pyarn -PHadoop-2.6 -Dhadoop.version=2.6.0-cdh5.8.3 -Dscala-2.10.5 -Phive -Phi原创 2016-12-28 15:12:07 · 1223 阅读 · 5 评论 -
Spark On Yarn之指定hive-site.xml找不到metastore
spark原创 2017-03-23 23:30:50 · 6934 阅读 · 3 评论 -
windows环境下编译spark源码和搭建源码调试环境
1、执行命令:git://github.com/apache/spark.git2、执行:mvn -Dmaven.test.skip=true clean package注:在git bash窗口运行,否则:java.io.IOException:cannt run program "bash"3、idea导入spark源码。4、原创 2017-10-16 17:29:36 · 637 阅读 · 0 评论