spark
max_hello
雄关漫道真如铁,而今迈步从头越。
展开
-
spark RDD[Row] 字段太多优化处理
val buffer: mutable.Buffer[Object] = Row.unapplySeq(row).get.map(_.asInstanceOf[Object]).toBuffer buffer.append(要加的字段) val schema: StructType = row.schema.add("aaa", StringType)....原创 2019-12-13 10:21:29 · 1356 阅读 · 0 评论 -
yarn rest接口监控mr spark 任务
yarn rest api :yarn rest apisparkstreaming消息延迟监控处理:http://ip:8088/proxy/yarn _application_id/metrics/json原创 2019-10-15 14:45:38 · 724 阅读 · 0 评论 -
Spark性能调优
Spark性能调优之Shuffle调优 • Spark底层shuffle的传输方式是使用netty传输,netty在进行网络传输的过程会申请堆外内存(netty是零拷贝),所以使用了堆外内存。 • shuffle过程中常出现的问题常见问题一:reduce oom? 问题原因: reduce task 去map端获取数据,reduce一边拉取数据一...转载 2018-09-27 16:07:01 · 197 阅读 · 0 评论 -
SBT命令打包报错解决办法
打包 package 清除 clean堆栈溢出出现错误:java.lang.StackOverflowError对于这个溢出,需要更改stack的大小,找到sbt的配置文件conf下的:sbtconfig.txt,添加内容:-Xss2m内存溢出出现错误:java.lang.OutOfMemoryError常见的内存溢出现象,添加配置信息:-Xms6...转载 2018-11-02 12:47:05 · 3059 阅读 · 0 评论 -
程序中Hadoop和Spark设置用户访问hdfs
1.对于hadoop而言如果hadoop没有启Kerberos或者从Kerberos获取的用户为null,那么获取HADOOP_USER_NAME环境变量,并将它的值作为Hadoop执行用户。如果我们没有设置HADOOP_USER_NAME环境变量,那么程序将调用whoami来获取当前用户,并用groups来获取用户所在组。所以可以设置环境变量:export HADOOP_USER_NA...转载 2019-02-26 17:52:11 · 2977 阅读 · 0 评论