自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(81)
  • 收藏
  • 关注

原创 SSH免密登录

ssh-keygen -t rsa 一直空格回车就行 生成密钥和公钥 -t rsa是使用默认的生成方式cd .ssh/touch authorized_keys ssh目录下创建文件(没有该文件则创建)chmod 600 authorized_keys ssh免密登录该文件权限必须是600,只有该用户可读可写,其他都没...

2019-11-07 01:51:13 221

原创 合并两个有序数组,合并之后保持有序

/** * * @param a 有序数组a * @param b 有序数组b * @param c 合并之后的有序数组c */ public static void merge(int[] a,int[] b,int[] c) { int i = 0; int j = 0; int n = 0; while(i<a.length &&am...

2019-09-20 23:37:12 969

原创 JVM

https://blog.csdn.net/qq_41701956/article/details/81664921

2019-09-20 21:02:26 198

原创 spark简介

http://www.sohu.com/a/270444235_494938

2019-09-20 19:58:59 145

原创 spark repartition和coalesce的区别和用法

repartition(numPartitions:Int):RDD[T]def repartition(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T] = withScope { coalesce(numPartitions, shuffle = true) }coalesce(numPartition...

2019-09-20 11:33:40 259

原创 cache和persist区别

cache()是persist()的特例,persist可以指定一个StorageLevel(缓存级别)cache的缓存级别是memory_only区别就是cache默认是在内存中存储的,而persist可以设置存储的级别:如何选择一种最合适的持久化策略默认情况下,性能最高的当然是MEMORY_ONLY,但前提是你的内存必须足够足够大,可以绰绰有余地存放下整个RDD的所有数据。...

2019-09-20 11:05:17 1712

转载 Spark的基本工作流程

https://my.oschina.net/134596/blog/3038296

2019-09-19 23:13:58 490

原创 spark运行模式

1.Local:本地模式(单机),使用n个线程。 2.Local Cluster:本地伪分布式模式,可以开启多个虚拟节点。 3.standalone模式:部署Spark到相关节点。 4.mesos模式:部署Spark与mesos到相关节点。粗粒度、细粒度:按需分配。 5.yarn模式:部署Spark与yarn到相关节点。粗粒度:提前分配好资源。local...

2019-09-19 22:45:25 137

原创 spark学习一

ransformation返回值还是一个RDD。它使用了链式调用的设计模式,对一个RDD进行计算后,变换成另外一个RDD,然后这个RDD又可以进行另外一次转换。这个过程是分布式的。Action返回值不是一个RDD。它要么是一个Scala的普通集合,要么是一个值,要么是空,最终或返回到Driver程序,或把RDD写入到文件系统中转换(Transformations)(如:map...

2019-09-19 22:16:42 128

原创 WAL日志为何是共享一个而不是每个region一个,以及Hlog的切分

Hlog文件hadoop sequenceFile文件,以keyvalue的形式存储数据如果每个region使用一个日志文件,则一个regionserver会有多个日志文件,同时并发写入不同的文件时,会有磁盘寻道和IO,会造成效率和可拓展性的降低。 如果有多个WAL文件,当region server故障后,需要对日志进行拆分才可以部署到新的server上,wal过多中间的等待时间长Hlog...

2019-09-14 17:06:54 796

原创 Hbase过滤器

Hbase通过过滤器减少网络传输的数据,过滤器在regionserver中起作用数据仍然需要从磁盘读到regionserver,因为Hbase表存储大量的数据,网络IO的节省更有意义,如果先读出所有数据传到客户端再过滤出有用数据,IO开销很大主要有六种过滤器:比较器、列值过滤器、键值元数据过滤器、行键过滤器、功能过滤器、布隆过滤器比较器一般与其他过滤器结合使用列值过滤器列值相等...

2019-09-14 14:17:23 390

原创 Hbase和HIve区别

Hbase和Hive在大数据架构中处在不同位置,Hbase主要解决实时数据查询问题,Hive主要解决数据处理和计算问题,一般是配合使用Hive可以使用HQL语言查询存放在HDFS上的数据,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询Hbase是非结构化半结构化数据库,运行在HDFS之上,key value数据库,Hbase...

2019-09-14 13:47:26 224

原创 rowKey的设计原则

row key长度原则不应设计过长,row key是冗余存储,数据的持久化文件HFile 中是按照KeyValue 存储的,row key越长会影响Hfile的存储效率 MemStore 将缓存部分数据到内存,Rowkey 字段过长内存的有效利用率会降低,系统将无法缓存更多的数据,这会降低检索效率Row key散列原则row key尽量散列,将Rowkey的高位作为散列字段,将提高数据...

2019-09-14 13:23:22 822

原创 请描述如何解决Hbase中region太小和region太大带来的冲突.

Region过大会发生多次compaction,将数据读一遍并重写一遍到hdfs 上,占用io region过小会造成多次split,region 会下线,影响访问服务调整hbase.hregion.max.filesize 为256m....

2019-09-14 13:15:18 1702 2

原创 region合并

https://www.cnblogs.com/smartloli/p/9649673.html合并出现RIT问题?一直有region在迁移

2019-09-14 12:51:19 371

原创 storeFile合并(compact)

memstore的flush操作会逐渐增加磁盘上的storeFile文件,当文件数量达到一定程度后,会将这些文件合并成规模更小但更大的文件,当最大的文件达到设置的阈值后,会进行region 的切分Compact 的作用:1>.合并文件2>.清除过期,多余版本的数据3>.提高读写数据的效率HBase 中实现了两种 compaction 的方式:minor and...

2019-09-14 12:45:40 912

原创 Hbase region 的切分过程

需根据Hbase的目录结构来分析,该过程完成迅速,只是在为region创建两个引用文件,每个持有原region的一半HBase将整个切分过程包装成了一个事务,意图能够保证切分事务的原子性。首先regionserver在父region下创建切分目录,当创建成功后会关闭该region 在切分目录下创建相应的文件结构:两个子region目录以及引用文件,每个引用文件指向原始reion的一...

2019-09-14 12:23:11 616

原创 region server发生故障后的处理过程

每个region server 会有一个Hlog对象,每次用户的请求写入在写入memstore之前都会先写入Hlog对象,当Hlog写满会被flush到磁盘当region server 发生故障时,zookeeper不能和region server保持通信,则会删除该region server节点, master通过watcher感知到后,首先会处理Hlog,将其中不同region的log拆...

2019-09-14 12:09:09 1315

原创 插入排序

选定一个有序区间,将后面的值一 一和有序区间中的值进行比较,插入适当的位置时间复杂度,空间复杂度,稳定性? public static void charu(int[] a) { //明确一个待插入的值,即这个值对应的下标index,这个值将要插入到什么位置 int insertValue; //又有多少个待插入的值即对应多少次循环 for (int i = 1; i &...

2019-09-14 11:31:58 81

原创 Hbase简介

访问Hbase主要有三种方式通过单个row key访问 通过row key的range 全表扫描存储时,数据按照Row key的字典序(byte order)排序存储。设计key时,要充分利用排序存储这个特性,将经常一起读取的行存储放到一起。(位置相关性)字典序对int排序的结果是1,10,100,11,12,13,14,15,16,17,18,19,2,20,21,…,9,91...

2019-09-13 23:00:18 307

原创 LRU算法,缓存淘汰机制

LRU(Least Recently Used 最近最少使用)算法有两种策略(均以队列的方式实现)一种是不调整的, 一种是随时进行调整的,即缓存命中后,将这个数据缓存项移到LRU队列的最前端。java中利用LinkedHashMap来实现LRU算法,需要覆写其中的removeEldestEntry(Map.Entry)方法即可。如果去看LinkedHashMap的源码可知,LRU算法是通过...

2019-09-13 21:15:21 578

原创 Hbase的特点

hbase分布式基于列式存储的数据库,基于hadoop的hdfs存储,通过zookeeper进行管理,依赖zookeeper hbase适合存储半结构化或非结构化的数据,特别是一些数据结构字段不够明确或者杂乱无章很难按一个概念去抽取的数据 hbase是主从架构,hmaster是主节点,hregionserver是从节点 表包含行键(row key),列族column family,列(key...

2019-09-13 20:16:59 232

原创 Hbase负载均衡

HBase通过Region数量实现简单的负载均衡三种负载均衡技术:1、全局计划2、随机分配计划3、批量启动分配计划全局计划:最常见的负载均衡,贯穿在整个集群的平衡运行期内,负载均衡以特定时间间隔(hbase.balancer.period默认是5分钟)执行下列情景不进行负载均衡:均衡负载开关balanceSwitch关闭。 HMaster未完成初始化操作。 RI...

2019-09-13 20:09:35 664

原创 鸡尾酒排序(冒泡排序最终版)

鸡尾酒排序:每一轮首先从前往后遍历出一个最大值放在最后面,然后从后往前遍历一个最小值放在最前面,即每一轮遍历选出一个最大值和一个最小值。适合用于大部分元素已经有序的情况时间复杂度和空间复杂度?是否稳定性?简单粗暴的鸡尾酒排序: public static void jiweijiu1(int[] a) { int tem; //首先确定外层循环遍历次数 for (in...

2019-09-13 04:08:28 557

原创 Hbase---19.9.12

http://abloz.com/hbase/book.html#ides四个主要的数据模型操作是 Get, Put, Scan, 和 Delete. 通过 HTable 实例进行操作.四个主要的数据模型操作是 Get, Put, Scan, 和 Delete.Get 返回特定行的属性。Gets 通过 HTable.get 执行。Put 要么向表增加新行 (如果key是新的) 或...

2019-09-12 21:54:23 173

原创 选择排序

每一次循环选择一个最小的数放到数组前面,每轮外循环只交换一次,需记录数值最小的下标弊端:不稳定性时间复杂度,空间复杂度自己写的,内层循环选择了从后往前遍历。看网上大部分是从前往后遍历,于是又写了一个 public static void xuanze(int[] a) { int minIndex; int tem; //外层循环次数 for (int i ...

2019-09-12 02:16:33 78

原创 冒泡排序

依次交换相邻的两个数,将大的数放后面。弊端:交换了很多次元素,消耗内存。时间复杂度度和空间复杂度简单粗暴的冒泡排序 public static void maopao1(int[] a) { int tem; //外层遍历n-1次 for (int i = 0; i < a.length-1; i++) { //j+1<length-i for...

2019-09-12 01:20:36 84

原创 yarn常见问题和解决方案

默认情况下,Hadoop集群各个节点的负载不均衡(任务数目不同),有的节点很多任务在跑,有的没有任务,怎样让各个节点任务数目尽可能均衡呢?默认情况下,资源调度器处于批调度模式下,即一个心跳会尽可能多的分配任务,这样,优先发送心跳过来的节点将会把任务领光(前提:任务数目远小于集群可以同时运行的任务数量),为了避免该情况发生,可以按照以下说明配置参数:如果采用的是fair scheduler,可...

2019-09-09 20:54:36 1976

原创 YARN resource manager的总体架构

http://dongxicheng.org/mapreduce-nextgen/yarnmrv2-resource-manager-infrastructure/在YARN中,ResourceManager负责集群中所有资源的统一管理和分配,它接收来自各个节点(NodeManager)的资源汇报信息,并把这些信息按照一定的策略分配给各个应用程序(实际上是ApplicationManager)...

2019-09-09 20:39:17 261

原创 applicationmaster故障后如何处理

MRAPPMaster向resourcemanager发送周期性的心跳报告。当resourcemanager发现MRAPPMaster故障时,会在一个新的容器(由节点管理器管理)开始一个新的MRAPPMaster实例,新的MRAPPMaster实例可以恢复故障任务的状态,使其不必重复运行,默认是不恢复,可设置。客户端是会通过心跳周期性的向MRAppMaster获取进度轮询,当MRAPPMaster...

2019-09-09 20:30:47 820

原创 YARN资源调度器

https://blog.csdn.net/mrzhangbaby/article/details/98256130https://www.cnblogs.com/BYRans/p/5567650.htmlhttp://itxw.net/article/372.html集群资源是非常有限的,在多用户、多任务环境下,需要有一个协调者,来保证在有限资源或业务约束下有序调度任务,YARN资源...

2019-09-09 07:14:56 159

原创 YARN Resource Manager 资源调度器

http://dongxicheng.org/mapreduce-nextgen/hadoop-yarn-memory-cpu-scheduling/http://dongxicheng.org/mapreduce-nextgen/yarnmrv2-resource-manager-resource-manager/在YARN中,资源调度器(ResourceScheduler)是一个非常核...

2019-09-09 07:05:32 275

原创 yarn内存和cpu的资源调度(管理)和资源隔离机制

http://dongxicheng.org/mapreduce-nextgen/hadoop-yarn-memory-cpu-scheduling/http://dongxicheng.org/mapreduce-nextgen/yarnmrv2-resource-manager-resource-manager/https://blog.csdn.net/ZYC88888/articl...

2019-09-09 07:00:04 598 1

原创 YARN中appmaster向resourcemanager申请资源的过程

以Hadoop任务为例: 1.当APPmaster获得任务的切片信息以后,会创建相应数量的map任务与reduer任务。这些任务会被封装成resourceRequest 列表,其中每个resourceRequest代表一个资源请求单元。 2.APPmaster向resourcemananger申请资源时会向rm发送这个resourceReqest列表。RM会...

2019-09-09 06:50:33 1229

原创 yarn中的container概念

http://dongxicheng.org/mapreduce-nextgen/understand-yarn-container-concept/\步骤1:用户将应用程序提交到ResourceManager上; 步骤2:ResourceManager为应用程序ApplicationMaster申请资源,并与某个NodeManager通信,以启动ApplicationMaster; 步骤...

2019-09-09 06:45:14 997

原创 mapreduce的工作机制(yarn简介),以及mapreduce1和mapreduce2的区别

https://www.cnblogs.com/frankdeng/p/9311474.htmlhttp://dongxicheng.org/mapreduce-nextgen/yarnmrv2-resource-manager-resource-manager/mapreduce1中工作机制主要包括客户端,jobtracker,tasktrackerJobtracker协调作业的运行...

2019-09-09 06:31:26 1098

原创 hdfs如何添加和撤销数据节点

https://www.jianshu.com/p/cdda3390b3ae在HDFS中提供了dis.hosts (include文件)文件和dfs.exclude文件(exclude文件),对连接到namenode的数据节点进行管理,include和exclude保存在FNamesystem中的hostsReader中,Include文件:指定了可以连接到namenode的数据节点列表...

2019-09-09 06:14:21 280

原创 什么时候出现副本过多?如何检测并删除

https://blog.csdn.net/androidlushangderen/article/details/50760170哪些潜在的原因或条件会触发多余副本块的发生?数据节点重新上线,节点下线操作会导致节点的block块在集群中大量拷贝,一旦此节点取消下线,之前已拷贝的block必然会成为多余的副本块. 人为重新设置block replication副本数,还是以A副本举例,A...

2019-09-09 06:10:49 246

原创 mapreduce的计数器

https://www.cnblogs.com/codeOfLife/p/5521356.html计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志mapreduce为每个任务维护了若干个内置计数器,主要分为两大类:任务计数器和作业计数器任务计数器在任务执行过程中,任务计数器采集任务的相关信息,每个作业的所有任务的结果会被聚集起来。例如,MAP_INPUT_RECOR...

2019-09-08 15:43:22 235

原创 input split 切片

https://blog.csdn.net/dr_guo/article/details/51150278https://blog.csdn.net/samhacker/article/details/23089157输入分片(Input Split)在进行map计算之前,mapreduce会根据输入文件计算输入分片(input split),每个输入分片(input split)针对...

2019-09-08 13:12:13 621

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除