大数据学习
文章平均质量分 83
TNTZS666
从无能到平庸要比从一流到卓越需要人们付出多得多的努力。
展开
-
《Hbase原理与实践》阅读笔记(七)
学习笔记(15-16章)1.HBase 2.x核心技术1.1.Procedure1.1.1.Procedure定义1.1.2.Procedure Yield1.2.In Memory Compaction1.2.1.Segment概念1.2.2.开启方式2.高级话题2.1.二级索引2.1.1.优劣比较2.2.HBase开发与测试2.2.1.HBase社区运作机制2.3.HBase相关网站3.总结...原创 2020-02-09 15:00:54 · 2501 阅读 · 2 评论 -
《HBase原理与实践》阅读笔记(六)
学习笔记(13-14章)1.HBase系统调优1.1.HBase-HDFS调优1.2.HBase读写性能调优1.2.1.HBase读取性能优化1.2.2.HBase写入性能优化1.3.HBase操作系统调优1.3.1.swap基本概念1.3.2.THP概念2.HBase运维案例分析2.1.RegionServer宕机2.2.HBase写入异常2.3.HBase运维问题分析思路3.总结本博客内容...原创 2020-02-08 15:46:08 · 693 阅读 · 0 评论 -
《HBase原理与实践》阅读笔记(五)
学习笔记(1-3章)1.备份与恢复1.1.Snapshot简介1.1.1.常用Snapshot工具1.1.2.Snapshot流程2.HBase运维2.1.HBase系统监控2.2.HBase集群基准性测试2.2.1.使用YCSB进行负载测试2.3.HBase HBCK2.3.1.集群一致性状态2.4.HBase核心参数配置2.4.1.Region相关参数2.4.2.BlockCache相关参数2...原创 2020-02-07 17:38:02 · 636 阅读 · 0 评论 -
《HBase原理与实践》阅读笔记(四)
学习笔记(9-10章)1.宕机恢复原理1.1.RegionServer宕机异常1.2.Hbase故障恢复1.2.1.Master故障恢复原理1.2.2.RegionServer故障恢复原理及流程2.复制2.1.HBase复制管理流程2.1.1.HBase客户端创建Peer流程2.2.串行复制2.3.同步复制2.3.1.同步复制中集群的四种状态2.3.2.同步复制建立过程3.总结本博客内容基本整...原创 2020-02-06 15:47:09 · 696 阅读 · 0 评论 -
《HBase原理与实践》阅读笔记(三)
学习笔记(7-8章)1.Compaction实现1.1.Compaction基本工作原理1.1.1.Compaction核心作用1.1.2.Compaction触发时机1.1.3.待合并HFile集合选择策略1.1.4.挑选合适的执行线程池1.1.5.Compaction BandWidth Limit两个重要参数2.Hbase负载均衡2.1.Region迁移2.2.Region合并2.3.Reg...原创 2020-02-05 15:05:26 · 972 阅读 · 0 评论 -
《HBase原理与实践》阅读笔记(二)
学习笔记(4-6章)1.Hbase客户端1.1.定位Meta表1.1.1.解决热点Region问题1.2.Hbase常见超时参数2.RegionServer核心模块2.1.内部结构2.1.1.HLog2.1.2.MemStore2.1.3.HFile3.Hbase读写流程3.1.Hbase写入流程3.1.1.少量写和批量写3.1.2.MemStore Flush触发条件3.2.Hbase读取流程4...原创 2020-02-04 15:47:29 · 1013 阅读 · 0 评论 -
《HBase原理与实践》阅读笔记
学习笔记一全书概述1.HBase概述1.1.Hbase发展历史1.2.Hbase数据模型1.3.Hbase体系结构1.4.Hbase系统特性2.Hbase基础数据结构与算法2.1.LSM树2.1.1.KeyValue存储格式2.2.跳跃表2.3.布隆过滤器3.Hbase依赖服务3.1.Zookeeper相关3.2.HDFS相关本博客内容基本整理自《Hbase原理与实践》一书。仅用于个人学习和积...原创 2020-02-03 16:32:45 · 4110 阅读 · 0 评论 -
HA集群出现脑裂情况解决方法
最近工作中测试经常反映HA集群环境中出现脑裂情况,在这里总结一下解决方法。脑裂出现原因:查看集群环境压力(CPU历史负载):sar -f /var/log/sa/sa17可以看到环境压力较大,导致集群出现脑裂情况。恢复措施:1.先暂停集群的daemon,hbase,Hadoop服务.dbserver.sh stop_server_all daemon,hadoop,hbas...原创 2019-10-24 08:54:39 · 1445 阅读 · 1 评论 -
Flink基本介绍
Flink通过实现Google Dataflow流式计算模型实现了高吞吐、低延迟、高性能兼具实时流式计算框架。同时Flink支持高度容错的状态管理,防止状态在计算过程中因为系统异常而出现丢失,Flink周期性地通过分布式快照技术Checkpoints实现状态的持久化维护,使得即使在系统停机或者异常的情况下都能计算出正确的结果。Flink的具体优势有以下几点:同时支持高吞吐、低延迟、高性能Fl...原创 2019-10-12 14:05:25 · 501 阅读 · 0 评论 -
Flink安装教程
1.从官网上下载自己需要的Flink版本Flink官网下载地址:https://flink.apache.org/downloads.html2.上传到Linux后解压必须解压到/usr/local目录下tar -zxf flink-1.9.0-bin-scala_2.11.tgz -C /usr/local3.启动Flink进入bin目录下执行如下命令:./start-clust...原创 2019-10-11 16:22:35 · 671 阅读 · 0 评论 -
HDFS存储架构剖析以及读写流程
HDFS存储架构主要由三部分组成:NameNode,DataNode,ClientNameNodeNamenode 是一个中心服务器,单一节点(简化系统的设计和实现),负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。文件操作,NameNode 负责文件元数据的操作,DataNode负责处理文件内容的读写请求,跟文件内容相关的数据流不经过NameN...原创 2018-09-11 19:01:48 · 432 阅读 · 0 评论 -
什么是Kafka——分布式消息系统
What’s is Kafka: Apache Kafka是分布式发布-订阅消息系统。他最初由Linkedln公司开发,之后成为Apache项目的一部分。Kafka是一种快速,可拓展的,设计内在就是分布式的,分区的和可复制的提交日志服务Apache Kafka与传统消息系统相比,有以下不同:: 它被设计为一个分布式系统,易于向外拓展;它同时为发布和订阅提供吞吐量;它支持多订...原创 2018-09-02 21:45:39 · 1834 阅读 · 0 评论 -
什么是Zookeeper——动物管理员?
What’s is ZooKeeper: 一个开源的分布式的,为分布式应用提供协调服务的Apache项目。功能包括::配置维护,名字服务,分布式同步,组服务等目标:封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。ZooKeeper特点: 最终一致性:为客户端展示同一视图,这是 ZooKeeper 最重要的性能。 可靠性...原创 2018-09-02 17:51:46 · 2437 阅读 · 0 评论 -
什么是Oozie——大数据任务调度框架
Oozie简介 Oozie是大数据四大协作框架之一——任务调度框架,另外三个分别为数据转换工具Sqoop,文件收集库框架Flume,大数据WEB工具Hue。 它能够提供对Hadoop MapReduce和Pig Jobs的任务调度与协调。 Oozie需要部署到Java Servlet容器中运行。 功能相似的任务调度框架还有Azkaban和Zeus。 Oo...原创 2018-08-21 22:33:15 · 25700 阅读 · 2 评论 -
MapReduce编程模板及shuffle过程简介
MapReduce运行流程(7步): 作业启动>>>作业初始化>>>任务调度(Yarn)>>>map>>>shuffle&gt原创 2018-08-16 22:27:01 · 421 阅读 · 0 评论 -
什么是Hive——大数据仓库Hive基础
Hive是什么: Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类SQL查询功能;其本质是将HQL转化成MapReduce程序。构建在Hadoop之上的数据仓库:使用HQL作为查询接口使用HDFS存储使用MapReduce计算灵活性和扩展性比较好:支持UDF,自定义存储格式等:适合离线数据处理Hive体系结构:...原创 2018-08-15 18:48:51 · 691 阅读 · 0 评论