- 博客(30)
- 收藏
- 关注
原创 Hbase学习笔记(五)——表的设计
Hbase——表的设计一、HBase的预分区1. 为何要预分区?2. 如何预分区?3. 如何设定预分区?3.1 手动指定预分区3.2 分区规则创建于文件中3.3 使用JavaAPI创建预分区二、HBase的rowKey设计技巧1. rowkey长度原则2. rowkey散列原则3. rowkey唯一原则4. 什么是热点4.1 加盐4.2 哈希4.3 反转4.4 时间戳反转三、HBase当中的二级索...
2019-12-04 21:57:16
2458
原创 Hbase学习笔记(四)——存储的三个机制(Flush、Compact、Split)
Hbase——存储的三个机制一、Flush二、Compact三、Split一、Flush当MemStore中的数据量达到阈值,就将数据Flush到HDFS中,以Storefile形式存储。触发条件:当某个store中的memstore的存储达到 128Mhbase.hregion.memstore.flush.size = 134217728当整个region所使用的...
2019-12-04 09:47:09
490
原创 Hbase学习笔记(三)——Shell + Java API
Hbase的启动在启动Hbase前,需要先启动HDFS和Zookeeper在namenode上启动hdfsstart-dfs.sh三台机器分别启动zookeeper/export/servers/zookeeper-3.4.5-cdh5.14.0/bin/zkServer.sh start再启动Hbase(在哪一台上启动,哪一台就是Hmaster)一键启动所有的...
2019-12-03 16:12:32
249
原创 Hbase学习笔记(二)——安装与部署
Hbase集群的搭建1. 安装包2. 修改配置文件3. 分发给其他机器4. 配置环境变量1. 安装包hbase-1.2.0-cdh5.14.0.tar.gz2. 修改配置文件配置文件所在位置cd /export/servers/hbase-1.2.0-cdh5.14.0/confhbase-env.sh # 第27行,修改JAVA_HOMEexport JAVA_HOM...
2019-12-03 10:21:14
212
原创 Hbase学习笔记(一)——基本介绍
Hbase——基本介绍一、HBase简介1. 定义2. 数据模型二、HBase特征简要三、HBase的基础架构1. HMaster2. RegionServer3. 其他组件一、HBase简介官网hbase.apache.org1. 定义Hbase是一种分布式的、基于内存、支持海量数据存储、面向列存储的NoSQL数据库。2. 数据模型逻辑上,Hbase的数据模型同关系型数据库很相...
2019-12-03 10:20:05
404
原创 Spark学习笔记(一)—— RDD介绍
Spark—— RDD介绍一、RDD概述1. 什么是RDD2. RDD属性二、RDD特点1. 分区2. 只读3. 依赖4. 缓存5. CheckPoint一、RDD概述1. 什么是RDDRDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素并行计算的集合。2. RDD属性...
2019-11-24 20:49:49
310
原创 Hadoop学习笔记(十二)——MapReduce编程规范及示例编写
Hadoop——MapReduce编程规范及示例编写一、编程规范二、WordCount示例编写1. Maven依赖2. Mapper3. Reducer4. Client一、编程规范用户编写的程序分成三个部分:Mapper,Reducer,Driver(提交运行mr程序的客户端)Mapper的输入数据是KV对的形式(KV的类型可自定义)Mapper的输出数据是KV对的形式(KV的类型可自...
2019-11-21 19:26:38
318
原创 Hadoop学习笔记(十一)——MapReduce基础介绍
Hadoop——MapReduce基础介绍一、MapReduce思想二、一、MapReduce思想先分再合,分而治之二、
2019-11-21 09:15:42
206
原创 Kafka学习笔记(五)—— Java API
Kafka学习笔记(二)—— Java API一、Maven依赖二、Java API本文Kafka版本:1.0.x一、Maven依赖Maven依赖查询地址https://mvnrepository.com/artifact/org.apache.kafkahttp://kafka.apache.org/10/documentation.html#apiProduc...
2019-11-20 22:23:30
187
原创 Kafka学习笔记(四)—— Shell 操作
Kafka—— Shell 操作一、Kafka shell 操作1、创建topic2、查看主题命令3、生产者生产数据4、消费者消费数据5、运行describe topics命令6、增加topic分区数7、增加配置8、删除配置9、删除topic一、Kafka shell 操作1、创建topic创建一个名字为test的主题, 有三个分区,有两个副本node01执行以下命令来创建topic ...
2019-11-20 21:53:35
359
原创 Kafka学习笔记(三)——架构介绍
Kafka——架构介绍 一、Kafka基本架构介绍1、生产者API2、消费者API3、StreamsAPI4、ConnectAPI二、Kafka架构内部细节剖析三、Kafka主要组件说明1. kafka当中的producer说明2. kafka当中的topic说明3. kafka当中的partition说明4. kafka当中partition的副本数说明5. kafka当中的segment说明索...
2019-11-20 21:44:24
284
原创 Kafka学习笔记(二)—— 基本介绍
Kafka—— 基本介绍一、Kafka的基本介绍二、Kafka的好处三、分布式的发布与订阅系统四、Kafka的主要应用场景一、Kafka的基本介绍官网http://kafka.apache.org/kafka使用scala语言编写,kafka是一个分布式,分区的,多副本的,多订阅者的日志系统(分布式MQ系统),可以用于搜索日志,监控日志,访问日志等。它提供了类似于JMS的特性,但是在...
2019-11-20 21:00:49
159
原创 Kafka学习笔记(一)——消息队列
Kafka——消息队列一、消息队列的介绍1. 定义2. 特点3. 模式二、消息队列的应用场景1. 异步处理2. 应用耦合3. 限流削峰4. 消息驱动的系统三、消息队列的缺点四、消息队列的两种模式1. 点对点模式2. 发布/订阅模式一、消息队列的介绍消息(Message)是指在应用之间传送的数据,消息可以非常简单,比如只包含文本字符串,也可以更复杂,可能包含嵌入对象。消息队列(Message ...
2019-11-20 20:23:34
291
原创 Zookeeper学习笔记(三)——选举机制
Zookeeper——选举机制Zookeeper选举机制1. 概念2. 全新集群选举3. 非全新集群选举Zookeeper选举机制zookeeper默认的算法是FastLeaderElection,采用投票数大于半数则胜出的逻辑。1. 概念服务器ID比如有三台服务器,编号分别是1,2,3。编号越大在选择算法中的权重越大。选举状态LOOKING,竞选状态。FOLLOWING,随从...
2019-11-19 17:47:04
222
原创 Hadoop学习笔记(十)——HDFS Snapshot快照功能
Hadoop——HDFS Snapshot快照功能一、概述二、具体操作一、概述快照snapshots是HDFS文件系统的只读的基于某时间点的拷贝,可以针对某个目录,或者整个文件系统做快照。快照比较常见的应用场景是数据备份,以防一些用户错误或灾难恢复。快照的高效性实现:(1) 快照可以即时创建。(2) 只有当涉及到快照目录的修改被执行时,才会产生额外的内存消耗。(3) 创建快照时,blo...
2019-11-19 15:19:23
528
原创 Hadoop学习笔记(六)——HDFS shell 客户端
Hadoop——HDFS Shell 客户端一、Shell 命令行客户端二、配置默认访问文件系统三、Shell 命令选项四、Shell常用命令介绍五、HDFS文件限额操作1. 数量限额2. 空间大小限额3. 查看hdfs文件限额数量一、Shell 命令行客户端Hadoop提供了文件系统的shell命令行客户端,使用方法如下:hadoop fs <args>文件系统shell包...
2019-11-19 11:39:04
326
原创 Hadoop学习笔记(四)——JobHistory
Hadoop——JobHistoryJobHistory1. 修改mapred-site.xml配置文件2. JobHistory 的启动 & 关闭3. 显示聚合功能JobHistoryJobHistory是用来记录已经运行完成的MapReduce作业日志信息,并将其存放在指定的HDFS目录下。默认情况下是没有启动,需要修改mapred-site.xml配置文件后手工启动服务。1. ...
2019-11-18 22:43:27
290
原创 Hadoop学习笔记(三)——HDFS垃圾桶机制
Hadoop——HDFS垃圾桶机制HDFS的垃圾桶机制1. 基本介绍2. 配置操作3. shell操作4. java操作HDFS的垃圾桶机制1. 基本介绍每一个文件系统都会有垃圾桶机制,将删除的数据回收到垃圾桶里面去,避免某些误操作删除一些重要文件。回收到垃圾桶里里面的资料数据,都可以进行恢复。HDFS同样拥有垃圾桶机制,但默认为禁用状态,若要开启垃圾桶机制,需要手动配置。如果启用垃圾桶...
2019-11-18 21:23:25
1602
原创 Scala学习笔记(四)
Scala学习笔记(四)一、高阶函数1. 作为值的函数2. 匿名函数3. 柯里化4. 闭包5. 柯里化二、隐式转换和隐式参数1. 定义2. 隐式转换的时机3. 自动导入隐式转换方法4. 隐式参数三、Akka并发编程框架简介1. Akka介绍2. Akka特性3. Akka通信过程4. 创建Actor5. API介绍6. 入门案例6.1 创建Maven模块6.2 创建并加载Actor6.3 发送/接...
2019-11-18 20:22:00
401
原创 Hadoop学习笔记(二)——安装与部署
Hadoop——安装与部署一、安装前提1. 配置好各虚拟机的网络(采用NAT联网模式)2. 修改各个虚拟机主机名3. 修改主机名和IP的映射关系4. 关闭防火墙5. 配置ssh免登陆6. 同步集群时间7. 安装jdk 1.8二、CDH版本Hadoop重新编译三、修改Hadoop配置文件四、对NameNode进行初始化五、Hadoop启动关闭方式1. 单节点逐个启动2. 脚本一键启动六、hadoop...
2019-11-18 20:21:06
301
原创 Hadoop学习笔记(一)——基础介绍
Hadoop——基础介绍一、Hadoop介绍二、Hadoop特性优点一、Hadoop介绍Hadoop是一个用java语言实现的开源软件框架,是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理它的核心组件有:HDFS(分布式文件系统):解决海量数据存储MAPREDUCE(分布式运算编程框架):解决海量数据计算YARN(作业调度...
2019-11-18 20:20:47
160
原创 Zookeeper学习笔记(二)——安装与部署
Zookeeper——安装与部署一、安装前提1. 安装规范2. JDK环境的准备3. 时间同步4. 关闭防火墙5. 主机名和ip的映射二、安装部署ZooKeeper三、ZooKeeper的集群启动、关闭、状态查看四、编写一键启动、关闭脚本一、安装前提1. 安装规范创建三个文件夹专门用于安装配置软件mkdir -p /export/servers # 软件安装mkdir -p /exp...
2019-11-18 15:42:26
206
原创 Zookeeper学习笔记(一)——基本介绍
Zookeeper——简介一、ZooKeeper概述二、ZooKeeper特性三、ZooKeeper集群角色1. Leader2. Follower3. Observer四、ZooKeeper数据模型一、ZooKeeper概述Zookeeper是一个开源的分布式应用程序协调服务。主要用来解决分布式集群中应用系统的一致性问题。Zookeeper本质上是一个分布式的小文件存储系统。提供基于类似于...
2019-11-18 15:40:58
225
原创 Scala学习笔记(三)
Scala学习笔记(三)一、模式匹配1. 简单模式匹配2. 匹配类型3. 守卫4. 匹配样例类5. 匹配数组6. 匹配列表7. 匹配元组8. 变量声明中的模式匹配8.1 获取数组中的元素8.2 获取List中的数据二、样例类1. 定义样例类2. 定义一个样例类3. 可变成员变量4. 样例类的方法4.1 apply方法4.2 toString方法4.3 equals方法4.4 hashCode方法4...
2019-11-10 11:27:32
639
原创 Scala学习笔记(二)
Scala学习笔记()1. 类和对象1.1 创建类和对象1.2 简写方式2. 定义和访问成员变量3. 使用下划线初始化成员变量4. 定义成员方法5. 访问修饰符6. 类的构造器6.1 主构造器6.2 辅助构造器7. 单例对象(Object)7.1 定义单例对象7.2 在单例对象中定义成员方法7.3 工具类案例8. main方法8.1 定义main方法8.2 实现App Trait来定义入口9. 伴...
2019-11-08 21:04:38
311
原创 Scala学习笔记(一)
3. scala解释器后续我们会使用scala解释器来学习scala基本语法,scala解释器像Linux命令一样,执行一条代码,马上就可以让我们看到执行结果,用来测试比较方便。我们接下来学习:启动scala解释器在scala解释器中执行scala代码退出scala解释器3.1 启动scala解释器要启动scala解释器,只需要以下几步:按住windows键 + r输入sc...
2019-11-07 17:48:53
455
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人