![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
Crazy丶魂仔_
There is much opportunity for anyone willing to dedicate himself to his labors.
付出努力的人才有机会出人头地。
展开
-
Spark启动时出现Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/conf/Configur
$ sbin/start-all.sh starting org.apache.spark.deploy.master.Master, logging to /home/hadoop/spark-1.6.0-cdh5.13.2/logs/spark-hadoop-org.apache.spark.deploy.master.Master-1-bigdata.outfailed to launc...原创 2019-02-20 00:41:08 · 11388 阅读 · 1 评论 -
广播变量和累加器的使用场景
广播变量对于经常用到变量值,在分布式计算当中,多个点检task一定会多次请求这个变量就会产生大量网络IO,会影响效率,这时就可以使用广播变量的方式将数据广播到对应的Exector端,之后在使用该变量时就可以直接向本机获取该值计算即可。优点:不用从Driver端拉去数据了,也不用从其他节点拉取数据了,只需要从自己的Exector端获取数据就可以了,减少网络IO,提高运行效率。缺点:数据一旦广播...原创 2019-04-09 21:10:36 · 498 阅读 · 0 评论 -
HBase的预分区设计
如果找到HBase数据表的key的分布情况,就可以在建表的时候对HBase进行region的预分区。这样做的好处是防止大量数据插入时带来的热点问题,提高数据插入的效率。HBase默认建表时有一个region的rowkey是没有边界的,即没有startkey和endkey,在数据写入时,所有数据都会写入这个默认的region,随着数据量的不断增加,此region已经不能承受不断增长的数据量,会进行...原创 2019-04-10 20:00:41 · 401 阅读 · 0 评论 -
Spark计算模型
一、什么是RDDRDD(Resilient Distributed Dateset)叫做分布式弹性数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD之间存在依赖关系,可进行恢复,RDD代表的数据集可以缓存,以便于加速后面的RDD计算,加快效率。RDD允许用户在执行多个查询时显式地将工...原创 2019-02-21 10:26:26 · 509 阅读 · 0 评论 -
Spark笔记
1.Spark集群启动流程:启动Master进程Master开始解析conf目录的slaves配置文件,找到相应的Worker节点,开始启动Worker进程Worker进程开始向Master发送注册信息Master接收到Worker的注册信息后并保存到内存和磁盘里,然后Worker发送注册成功信息Worker开始和Master建立心跳,Master每次接收到心跳后更新WokerInf...原创 2019-02-20 20:07:25 · 117 阅读 · 0 评论 -
Spark的JDBC编写
package Spark_day03import java.sql.DriverManagerimport org.apache.spark.rdd.JdbcRDDimport org.apache.spark.{SparkConf, SparkContext}object JdbcRDD1 { def main(args: Array[String]): Unit = {...原创 2019-02-25 17:35:59 · 211 阅读 · 0 评论 -
Exception in thread "dispatcher-event-loop-1" java.lang.NoClassDefFoundError: com/fasterxml/jackson/
启动Spark时(CDH版本较常见),报如下错误:19/02/20 00:20:33 INFO StandaloneRestServer: Started REST server for submitting applications on port 6066Exception in thread "dispatcher-event-loop-1" java.lang.NoClassDefFo...原创 2019-02-20 00:48:17 · 4882 阅读 · 6 评论