Spark
Crazy丶魂仔_
There is much opportunity for anyone willing to dedicate himself to his labors.
付出努力的人才有机会出人头地。
展开
-
Spark启动时出现Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/conf/Configur
$ sbin/start-all.sh starting org.apache.spark.deploy.master.Master, logging to /home/hadoop/spark-1.6.0-cdh5.13.2/logs/spark-hadoop-org.apache.spark.deploy.master.Master-1-bigdata.out failed to launc...原创 2019-02-20 00:41:08 · 11507 阅读 · 1 评论 -
广播变量和累加器的使用场景
广播变量 对于经常用到变量值,在分布式计算当中,多个点检task一定会多次请求这个变量就会产生大量网络IO,会影响效率,这时就可以使用广播变量的方式将数据广播到对应的Exector端,之后在使用该变量时就可以直接向本机获取该值计算即可。 优点:不用从Driver端拉去数据了,也不用从其他节点拉取数据了,只需要从自己的Exector端获取数据就可以了,减少网络IO,提高运行效率。 缺点:数据一旦广播...原创 2019-04-09 21:10:36 · 555 阅读 · 0 评论 -
HBase的预分区设计
如果找到HBase数据表的key的分布情况,就可以在建表的时候对HBase进行region的预分区。这样做的好处是防止大量数据插入时带来的热点问题,提高数据插入的效率。 HBase默认建表时有一个region的rowkey是没有边界的,即没有startkey和endkey,在数据写入时,所有数据都会写入这个默认的region,随着数据量的不断增加,此region已经不能承受不断增长的数据量,会进行...原创 2019-04-10 20:00:41 · 426 阅读 · 0 评论 -
Spark计算模型
一、什么是RDD RDD(Resilient Distributed Dateset)叫做分布式弹性数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD之间存在依赖关系,可进行恢复,RDD代表的数据集可以缓存,以便于加速后面的RDD计算,加快效率。RDD允许用户在执行多个查询时显式地将工...原创 2019-02-21 10:26:26 · 533 阅读 · 0 评论 -
Spark笔记
1.Spark集群启动流程: 启动Master进程 Master开始解析conf目录的slaves配置文件,找到相应的Worker节点,开始启动Worker进程 Worker进程开始向Master发送注册信息 Master接收到Worker的注册信息后并保存到内存和磁盘里,然后Worker发送注册成功信息 Worker开始和Master建立心跳,Master每次接收到心跳后更新WokerInf...原创 2019-02-20 20:07:25 · 141 阅读 · 0 评论 -
Spark的JDBC编写
package Spark_day03 import java.sql.DriverManager import org.apache.spark.rdd.JdbcRDD import org.apache.spark.{SparkConf, SparkContext} object JdbcRDD1 { def main(args: Array[String]): Unit = { ...原创 2019-02-25 17:35:59 · 238 阅读 · 0 评论 -
Exception in thread "dispatcher-event-loop-1" java.lang.NoClassDefFoundError: com/fasterxml/jackson/
启动Spark时(CDH版本较常见),报如下错误: 19/02/20 00:20:33 INFO StandaloneRestServer: Started REST server for submitting applications on port 6066 Exception in thread "dispatcher-event-loop-1" java.lang.NoClassDefFo...原创 2019-02-20 00:48:17 · 4926 阅读 · 6 评论