分布式
文章平均质量分 93
hixiaoxiaoniao
这个作者很懒,什么都没留下…
展开
-
HBase-HFile分析
HFile的整体结构图如下: 整个HFile分四部分:1.可以被迭代器扫描的部分,如数据块2.不被迭代器扫描到的部分,如中间层索引3.直接加载到内容的部分,如根索引,文件信息4.尾部文件块部分,通过尾文件块找到根索引,再由索引定位中间索引以及叶索引,最后找到需要的数据。需要注意的是第三点中,直接被加载到内存的部分,如根索引,文件信息,这部分的内容对于一个正确的HFile实现来说就是这样做的,如HF...原创 2018-06-11 23:30:53 · 1072 阅读 · 0 评论 -
Hadoop-commons分析
hadoop的配置文件相关类 Configuration所有大型的系统都有一套自己的配置系统或模块,用于方便系统扩展用,hadoop有自己独立的一套配置方式采用XML文件,使用SAX解析配置文件my-config.xml格式<?xml version="1.0" encoding="UTF-8"?> <?xml-stylesheet type="text/xsl" href=...原创 2018-06-22 11:51:20 · 3300 阅读 · 0 评论 -
Hadoop-balancer执行原理
核心类在org.apache.hadoop.hdfs.server.balancer.Balancer 均衡算法 伪代码while(true) { 1.获取需要迁移的字节数 if(需要迁移字节数 == 0) { return "成功,无需迁移"; } 2.选择需要迁移的节点 if(需要移动的数据 == 0) { return "没有需要移动的块" } ...原创 2018-06-22 11:52:25 · 1119 阅读 · 0 评论 -
Hadoop-远程过程调用
Hadoop IPC类图如下 连接<span style="font-size: 14px;">//为了提高通讯效率,连接是可以复用的,通过ConnectionId来区分不同的连接 class ConnectionId { InetSocketAddress address; //远端服务器的地址 UserGroupInformation ...原创 2018-06-22 11:53:31 · 305 阅读 · 0 评论 -
Hadoop-DataNode分析
HDFS主要流程客户端创建到namenode的文件与目录操作客户端会调用FileSystem实现也就是DistributedFileSystem的mkdir()函数,之后DistributedFileSystem会通过IPC调用namenode的mkdir()这个操作会持久化到日志中FSImage#saveFSImage(),之后返回创建目录只是客户端和namenode交互,不会跟datanode...原创 2018-06-22 11:54:26 · 699 阅读 · 0 评论 -
Hadoop-相关文章
HBase API http://hbase.apache.org/0.94/apidocs/index.html HBase blog http://blogs.apache.org/hbase/ csdn hadoop http://subject.csdn.net/hadoop/ hadoop大会 http://hbtc2012.hadooper.cn/index.html hadoop与大...原创 2018-06-20 16:34:26 · 262 阅读 · 0 评论 -
Hadoop-环境搭建
登陆master机器 ssh-keygen -t rsa 生成密钥对 cp id_rsa.pub authorized_kyes scp authorized_keys 从节点1:/home/xx/.ssh scp authorized_keys 从节点2:/home/xx/.ssh 需要输入密码,不过输入一次密码之后以后就不用输入了 配置/etc/hosts 增加三台机器的...原创 2018-06-20 16:38:32 · 162 阅读 · 0 评论 -
redis总结
redis总结原创 2018-10-31 20:05:57 · 101 阅读 · 0 评论 -
左耳听风--分布式系统的本质
.......占位原创 2018-11-05 13:36:32 · 450 阅读 · 0 评论 -
Kafka-介绍
kafka介绍原创 2018-12-28 17:36:26 · 160 阅读 · 0 评论 -
大数据之路
大数据之路原创 2019-01-26 10:06:36 · 439 阅读 · 0 评论 -
大规模数据处理实战--总体概述
总体概述原创 2019-05-04 14:01:32 · 1625 阅读 · 0 评论 -
大规模数据处理实战--基础知识
基础知识原创 2019-05-04 16:58:15 · 1351 阅读 · 0 评论 -
Hadoop-常用操作
使用URL的方式读取一个文件内容,需要设置一个handler工厂,这个工厂只能设置一次 static { URL.setURLStreamHandlerFactory( new FsUrlStreamHandlerFactory() ); } public void test1() throws IOException { URL u = new URL("hdfs:/...原创 2018-06-22 11:50:19 · 227 阅读 · 0 评论 -
HBase-数据恢复
3月25日(周二)最开始就是namenode启动不了,感觉很奇怪。网上给了好几种解决办法,其中包含修改代码NameNode不能启动报 NullPointerException按照这个思路将namenode启动了,但是发现hbase的master启动有问题,master做了日志切分,然后一会就挂掉了,启动了几次都是这样,后来我想是不是可以将日志切分那段给停止住,然后等所有的region server...原创 2018-06-22 11:47:23 · 1898 阅读 · 0 评论 -
HBase-各种API操作
初始化 Configuration HBASE_CONFIG = new Configuration(); HBASE_CONFIG.set("hbase.zookeeper.quorum", "IP"); HBASE_CONFIG.set("hbase.zookeeper.property.clientPort", "端口"); cfg = new HBaseConfiguration(H...原创 2018-06-12 20:19:17 · 342 阅读 · 0 评论 -
HBase-线程调整
read线程数量 ipc.server.read.threadpool.size 默认为10 取数据 get 'test','aa1',{COLUMN=>'cf',TIMESTAMP=>5} 指定的ts不存在则返回空原创 2018-06-12 20:19:50 · 250 阅读 · 0 评论 -
Hbase-HMaster架构
HMaster的整体结构一个master包含如下部分:1.对外的接口 RPC服务 jetty web服务 Master MBean 其中RPC服务包括了若干listener,reader,以及handler线程(IPC Handler和 用于replication的IPC Handler)2.执行服务都是一些线程池,当有任务出现时就就会交给这些类来处理这些线程有MASTER_SERV...原创 2018-06-12 20:22:09 · 1521 阅读 · 0 评论 -
HBase-RegionServer架构
RegionServer的整体结构一个region server包含了五部分功能:1.和zookeeper相关的线程 MasterAddressTracker负责捕获master节点的状态 ClusterStatusTracker追踪hbase集群的状态 CatalogTracker跟踪root表meta表和region的状态 SplitlogWorker竞争获取znode...原创 2018-06-12 20:23:45 · 466 阅读 · 0 评论 -
HBase-客户端请求
客户端相关参数参数默认值含义hbase.htable.threads.max2147483647 线程池中的线程数量hbase.htable.threads.keepalivetime60秒keepalive时间 hbase.client.pause1秒重试的休眠时间 hbase.client.retries.number10重试次数 hbase.client.rpc.maxattempts1 h...原创 2018-06-12 20:27:22 · 667 阅读 · 0 评论 -
HBase-服务端处理请求的过程
Region的架构 HRegionServer:配置:hbase.client.retries.number (默认10) 客户端的重试次数hbase.regionserver.msginterval (默认3*1000) ???hbase.regionserver.checksum.verify(默认false) 是否启用checksumhbase.server.thread.wakefre...原创 2018-06-12 20:28:45 · 1234 阅读 · 0 评论 -
HBase-HFile的读写操作
写入数据: public class TestWrit { private static Configuration cfg = new Configuration(); private static final int BLOCK_INDEX_SIZE = 60; private static final int BLOOM_BLOCK_INDEX_SIZE = 1...原创 2018-06-12 20:30:12 · 2462 阅读 · 0 评论 -
HBase-WAL相关线程处理逻辑
日志同步线程 HLog$LogSyncer hbase.regionserver.optionallogflushinterval默认1秒配置log syncer线程扫描间隔更新、增加、删除操作会触发一次WAL,而WAL是同步写入到hadoop的,也就是先写WAL,再做更新(或者删除)这些操作是在handle线程中完成的1.handle先创建一个WAL,放入队列中2.之后检查标志位,是否是同步写W...原创 2018-06-12 20:30:58 · 734 阅读 · 0 评论 -
HBase-HLog分析
HLog的全部实现在包:org.apache.hadoop.hbase.regionserver.wal 中 相关的配置为参数名默认值含义hbase.regionserver.hlog.enabledtrue是否启用WALhbase.regionserver.hlog.writer.implSequenceFileLogWriterHLog.Writer实现类hbase.regionserver....原创 2018-06-12 20:32:01 · 1982 阅读 · 0 评论 -
HBase-遇到的问题
rowlock release problem with thread interruptions in batchMutate在region server的log中有大量的WARN日志: WARN org.apache.hadoop.hbase.regionserver.HRegion: Failed getting lock in batch put, row=0001558252搜索关键字"...原创 2018-06-13 16:50:00 · 495 阅读 · 0 评论 -
HBase-压缩和分割原理
HRegionServer调用合并请求主要逻辑如下://遍历每个Store然后计算需要合并的文件,生成 //CompactionRequest对象并提交到线程池中执行 //根据throttleCompaction()函数规则来判断是提交到 //largeCompactions线程池还是smallCompactions线程池 CompactSplitThread#requestCompact...原创 2018-06-13 16:52:50 · 899 阅读 · 0 评论 -
HBase-cache相关
一些配置参数hbase.lru.blockcache.min.factorhbase.lru.blockcache.acceptable.factorhbase.regionserver.global.memstore.upperLimit 默认为0.4hbase.regionserver.global.memstore.lowerLimit 默认为0.35 cacheFlusher...原创 2018-06-13 16:53:43 · 191 阅读 · 0 评论 -
大规模数据处理实战--Spark
大规模数据处理实战--Spark原创 2019-05-30 19:29:33 · 681 阅读 · 0 评论