![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
集群
文章平均质量分 81
Johnson8702
这个作者很懒,什么都没留下…
展开
-
Spark性能调优(四)---其他几个性能调优策略
一、广播大变量被大量task使用的变量,使用广播。被广播的变量,在Driver中存在一个初始副本。这样,就不需要每个task都拥有一个变量的副本,节省网络传输的资源和内存的资源;每一个BlockManager有一个变量的副本,BlockManager中没有变量的时候,可以去Driver中获取,也可以从距离最近的其他BlockManager中获取。设置广播变量:sc.broadcast();...原创 2019-02-18 14:57:22 · 223 阅读 · 0 评论 -
Spark性能调优(三)---在实际项目中重构RDD架构以及RDD持久化
一、为什么要重构RDD,持久化RDD①为什么需要重构RDD如上图所示, RDD2和RDD3是RDD1执行相同的算子得到的RDD,是相同的RDD。对于这种需要被重复使用,差不多的RDD,可以抽取为一个共同的RDD,供后面的RDD计算时,重复使用。②为什么持久化RDD如上图所示,如果没有持久化RDD,那么在获取RDD3和RDD4的时候,都需要从HDFS读取文件,转换成RDD1,...原创 2019-01-30 15:54:32 · 294 阅读 · 0 评论 -
Spark性能调优(二)---在实际项目中调节并行度
一、什么是并行度并行度,其实就是指,Spark作业中 ,各个stage的task数量,也就代表了Spark作业在各个阶段(stage)的并行度。 二、并行度过低的危害假如,在spark-submit脚本里面,给Spark作业分配了足够多的资源,比如50个executor,每个executor有10G内存,3个cpu core。基本已经达到了集群或者yarn队列的资源上限。tas...原创 2019-01-30 14:10:43 · 278 阅读 · 0 评论 -
Spark性能调优(一)---在项目中分配更多的资源
一、分配更多资源性能调优的王道,就是增加和分配更多的资源,性能和速度上会得到很大提升。基本上,在一定的范围之内,增加的资源和性能的提升是成正比的。所以,性能调优的第一步是增加资源,调节最优的资源配置;第二步,能够分配的资源达到能力范围的顶端后,无法再分配更多的资源,需要考虑下面几个性能调优的点。 二、性能调优的点①分配哪些资源?executor cup per executo...原创 2019-01-30 11:01:08 · 226 阅读 · 0 评论 -
Kafka彻底删除topic详解
一、前言严格来讲,kafka删除topic并不是很难,但是步骤比较麻烦,稍有不慎就会失败。本文就kafka删除topic的步骤做出详细解析。 二、详细步骤①停止kafka服务停止kafka的所有的消费者和生产者,关闭kafka,防止在删除topic之后,程序发现topic不存在而自动创建topic②修改配置文件在kafka安装目录的conf目录下,修改server.pr...原创 2018-12-11 17:24:02 · 3634 阅读 · 0 评论 -
HBase的SQL驱动---Phoenix
一、Phoenix简介Apache Phoenix是HBase的SQL驱动,是构建在Apache HBase之上的一个SQL中间层。Phoenix完全使用Java编写,代码位于GitHub上,并且提供了一个客户端可嵌入JDBC驱动。Phoenix使得HBase支持通过JDBC的方式进行访问,并将你的SQL查询转成HBase的扫描和相应的动作。Phoenix并不是想HBase那样用于map-re...原创 2018-12-07 15:13:03 · 1211 阅读 · 0 评论 -
Hadoop2.0高可用集群搭建
0、集群节点分配Hadoop01:ZookeeperNameNode(active)DataNodeNodeManagerJournalNodeResourceManager(active)Hadoop02:ZookeeperDataNodeNodeManagerJournalNodeNameNode(standby)Hadoop03:Z...原创 2018-12-03 18:48:00 · 478 阅读 · 0 评论 -
Squirrel SQL客户端使用图解
一、Squirrel简介Squirrel是一个连接数据库的客户端工具,一般支持JDBC的数据库都可以用它来简介,如连接MySQL。 二、安装准备下载jar包:squirrel-sql-3.7.1-standard.jar 三、安装①进入squirrel-sql-3.7.1-standard.jar文件所在的目录,在地址栏输入:cmd,进入命令窗口②在命令窗口输入:j...原创 2018-12-07 18:06:16 · 6364 阅读 · 0 评论 -
HBASE完全分布式安装
0、集群节点分配Hadoop01:Zookeeper+Hadoop+HBaseHadoop02:Zookeeper+HBaseHadoop03:Zookeeper+HBase 关于Hadoop2.0高可用集群搭建,请移步:https://blog.csdn.net/Johnson8702/article/details/84765141 1、安装和配置01节...原创 2018-12-04 12:57:56 · 658 阅读 · 0 评论 -
Hive问题总结
1、问题描述:进入hive的bin目录,执行./hive命令进入窗口时报错 ls:无法访问/home/software/spark/jars/*.jar:没有那个文件或目录原因分析:在对应的目录下,找不到jar包解决方法:进入bin目录,编辑hive文件,将sparkAssemblyPath=`ls ${SPARK_HOME}/lib/spark-assembly-*.jar`改为sp...原创 2018-08-23 14:48:03 · 235 阅读 · 0 评论 -
Spark问题总结
1、问题描述:在scala类中设置拦截地址时报错原因分析:设置拦截时,拦截地址书写格式不对解决方法:将@RequestMapping("/connect")改写成@RequestMapping(value=Array("/connect"))2、问题描述:在SpringBoot项目中编写scala代码,启动时报错:Error:scalac:package macros co...原创 2018-08-23 14:01:42 · 509 阅读 · 0 评论 -
HBase问题总结
1、问题描述:启动./hbase shell时,报异常,异常信息如下:java.lang.RuntimeException: java.lang.UnsatisfiedLinkError: 设备上没有空间原因分析:/dev/mapper/volgroup-lv_root 100%,空间被占用。 ...原创 2018-08-23 10:54:57 · 862 阅读 · 0 评论 -
Hadoop集群搭建问题总结
1、问题描述:hadoop集群启动时,datanode进程启动不了原因分析:namenode和datanode下VERSION文件中的clusterID不一致,导致datanode启动不了解决方法:进入hadoop的配置目录hadoop-2.7.1/etc/hadoop,进入hdfs-site.xml配置文件,找到namenode和datanode的配置空间<!--配置namenode数据存放的位置,可以不配置,如果不配置,默认用的是core-site.xml里配置的hadoop.t原创 2018-08-23 10:19:35 · 1352 阅读 · 0 评论