spark
low-bee
这个作者很懒,什么都没留下…
展开
-
hiveserveice2断开连接
背景使用idea连接hiveserveice2, 开始的时候没有报错,运行一段任务后, 任务失败, 尝试重新运行时出现 java.io.Exception:连接被拒绝原因hiveservice2服务因为空间不足被kill, 查看日志后发现Java Heap 异常, 因此是内存不足引起的解决将hive/conf/hive-env.sh中的# export HADOOP_HEAPSIZE= 修改为 export HADOOP_HEAPSIZE=1024重启hiveservice2出现错误serv原创 2021-04-27 11:15:42 · 971 阅读 · 0 评论 -
Spark 对接 Kafka
Spark对接KafkaKafka作为工作中最常用到的消息中间件, 以其高速处理消息出现在实时处理领域. 要使用Kafka做实时处理,那么就必须说道Spark和Kafka之间的对接对接方式Kafka作为Spark Executor的生产者, Spark Executor从Kafka中拉取数据并进行内容的计算.准备创建一个Maven, 导入需要的依赖<dependencies> <!--spark core--> <dependency>原创 2021-04-24 16:57:18 · 583 阅读 · 0 评论 -
scala序列化错误
Spark的对象序列化机制当我使用如下代码来测试foreach的时候, 出现了def main(args: Array[String]): Unit = { val sc = new SparkContext(new SparkConf().setAppName("RDD").setMaster("local[*]")) val user = new User(age = 30) sc.makeRDD(List(1,2,3,4)).foreach( num =>原创 2021-04-22 17:10:45 · 400 阅读 · 0 评论 -
# Spark makeRDD默认分区策略
指定参数sc.makeRDD(List[Int](1, 2, 3, 4), numSlices = 3)得到结果[1], [2], [3,4]为什么会这样分呢?//到对应的方法中def parallelize[T: ClassTag]( seq: Seq[T], numSlices: Int = defaultParallelism): RDD[T] = withScope { assertNotStopped() new ParallelCollect原创 2021-04-22 08:32:30 · 424 阅读 · 0 评论 -
Spark 默认parallelize问题
parallelizespark中有并发的概念, 当使用parallelize方法, 或者makeRDD方法创建一个RDD的时候, 可以选择传入一个默认的并行度, 来提高效率. 当不传入第二个参数的时候, 默认是几个分区呢?def makeRDD[T: ClassTag]( seq: Seq[T], numSlices: Int = defaultParallelism): RDD[T] = withScope { parallelize(seq, numSlices)原创 2021-04-21 22:44:06 · 629 阅读 · 0 评论