![](https://img-blog.csdnimg.cn/20190925084051919.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Spark
文章平均质量分 80
storm_fury
本是青灯不归客,却因浊酒留红尘
展开
-
使用 Spark 跨集群同步HDFS数据
import org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSessionobject TestFileCopy { def main(args: Array[String]): Unit = { Logger.getLogger("org.a原创 2020-07-22 13:32:35 · 1830 阅读 · 0 评论 -
Scala中反射的使用
参考: http://software.clapper.org/classutil/测试类:import com.project.dmp.utils.ClassUtilsimport org.clapper.classutil.ClassInfoimport org.clapper.classutil.ScalaCompat.LazyListimport org.junit.Testimport spire.std.mapclass ClassUtilTest { /** * 获原创 2020-07-17 16:49:23 · 521 阅读 · 0 评论 -
Structured Streaming 简介
示例代码import org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.sql.streaming.OutputModeimport org.apache.spark.sql.{DataFrame, SparkSession}/** * 监听网络端口发...原创 2019-12-06 10:53:07 · 542 阅读 · 0 评论 -
Spark 使用 Redisson 读写 Redis 集群遇到的相关问题及解决办法
遇到的相关问题问题一:由于Spark2 环境使用的 netty-all-4.0.43.Final.jar 与 redisson 中的 netty-all-4.1.41.Final.jar 冲突,直接将 redisson 的 jar 包打包进项目中运行会报以下异常。Exception in thread "streaming-job-executor-0" java.lang.NoSu...原创 2019-10-14 14:40:57 · 3071 阅读 · 0 评论 -
在 idea 中以 yarn-client 远程提交 Spark作业
示例代码RemoteSubmitApp 主类package com.clouderaimport org.apache.kafka.clients.consumer.ConsumerConfigimport org.apache.kafka.common.serialization.StringDeserializerimport org.apache.log4j.Logger...原创 2019-09-27 16:39:47 · 1980 阅读 · 1 评论 -
Spark的作业调度机制
简介Spark调度机制可以理解为两个层面的调度。Spark Application调度(Spark应用程序在集群中运行的调度,包括Driver调度和Executor调度)和单个Spark应用程序SparkContext的内部调度。SparkContext内部调度就是每个Spark Application都会有若干Jobs(Spark Actions),然后这些job是以何种机制在Execu...原创 2019-08-22 17:26:36 · 723 阅读 · 0 评论 -
Spark-Streaming 消费 Kafka 多 Topic 多 Partition
package com.cloudera.testimport com.cloudera.utils.{JedisPoolUtils, PropertiesScalaUtils}import org.apache.kafka.clients.consumer.{ConsumerConfig, ConsumerRecord}import org.apache.kafka.common.Top...原创 2019-07-23 16:35:51 · 1585 阅读 · 0 评论 -
Spark Streaming将处理结果数据写入Kafka
Spark 没有直截有效的方式将消息发送到Kafka。input.foreachRDD(rdd => // 不能在这里创建KafkaProducer rdd.foreachPartition(partition => partition.foreach { case x: String => { val props = new Has...原创 2019-07-10 20:21:54 · 3310 阅读 · 0 评论 -
Spark应用日志级别设置
方法一针对所有应用在 spark 工程的 resources 目录下,新建 log4j.properties 文件内容如下:log4j.rootLogger=${root.logger}# 此处修改 INFO为对应的日志级别即可 (ERROR WARN INFO DEBUG)root.logger=INFO,console log4j.appender.console=o...原创 2019-06-26 21:14:56 · 788 阅读 · 0 评论 -
SparkStreaming 消费 Kafka 数据保存 Offset 到 Zookeeper
package com.hdjt.bigdata.passengerFlowimport com.cloudera.KafkaZkUtilsimport kafka.utils.ZkUtilsimport org.apache.kafka.clients.consumer.{ConsumerConfig, ConsumerRecord}import org.apache.kafka.co...原创 2019-06-26 20:32:55 · 1095 阅读 · 0 评论 -
Spark on Yarn 在cdh集群中运行报错 Required executor memory
Run on a YARN clusterspark-submit \--class com.hnb.data.UserKeyOpLog \--master yarn \--deploy-mode cluster \--executor-memory 128M \--num-executors 2 \lib/original-dataceter-spark.jar \args...原创 2018-11-09 13:22:09 · 2793 阅读 · 0 评论 -
RDD操作详解
1.1.RDD操作详解启动spark-shell/usr/local/spark-1.5.2-bin-hadoop2.6/bin/spark-shell --master spark://node1.itcast.cn:7077或者采用离线测试基本转换mapmap是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。 任何原RDD中的元素在新RDD中都有且只有一个元素与之对...原创 2018-11-08 16:07:48 · 1978 阅读 · 0 评论 -
SparkStreaming 消费 Kafka 数据保存 Offset 到 Redis
Sparkstreaming程序:package com.cloudera.savekafkaoffsetimport com.cloudera.utils.{JedisPoolUtils, KafkaRedisUtils, RedisConfig}import org.apache.kafka.clients.consumer.ConsumerConfigimport org.apac...原创 2019-09-30 14:58:59 · 696 阅读 · 1 评论 -
Spark 读取 Hive 数据及相关问题解决
D:\development\java\jdk1.8.0_111\bin\java.exe -agentlib:jdwp=transport=dt_socket,address=127.0.0.1:59779,suspend=y,server=n -javaagent:D:\development\ideaIU-2018.3.5.win\lib\rt\debugger-agent.jar -Dfi...原创 2019-09-29 10:54:30 · 2151 阅读 · 0 评论