Hadoop
Gwynbleidddd
这个作者很懒,什么都没留下…
展开
-
Hbase(三)过滤器
参考文章: HBase过滤器的使用 HBase过滤器简介 过滤器查询 比较过滤器 HBase中的过滤器类似于SQL中的Where条件。 过滤器在客户端创建,然后通过RPC发送到服务器上,由服务器执行,执行流程如下图: 使用过滤器至少需要两类参数,一类是抽象的操作符。HBase 提供了枚举类型的变量来表示这些抽象的操作符,含义如下: LESS 小于 LESS_OR_EQUAL 小于等于 EQUAL 等于 NOT_EQUAL 不等于 GREATER_OR_EQUAL 大于等于 GREATER 大于 NO_.原创 2020-11-11 18:56:28 · 134 阅读 · 0 评论 -
Hbase(二)架构与表模型
主从架构 Zookeeper HMaster节点 主节点:主要负责region的分配以及管理从节点。 HMaster没有单点故障问题,可以启动多个HMaster,通过ZooKeeper的Master Election机制保证同时只有一个HMaster处于Active状态,其他的HMaster则处于热备份状态。一般情况下会启动两个HMaster,非Active的HMaster会定期的和Active HMaster通信以获取其最新状态,从而保证它是实时更新的,因而如果启动了多个HMaster反而增加了Activ原创 2020-11-10 19:38:27 · 127 阅读 · 0 评论 -
HBASE(一)简介
什么是Hbase 大数据领域里面的一个NoSQL非关系型数据库。建立在HDFS上。主要用来结构化以及半结构化(类似于json或者xml结构的数据)的松散数据。 Hbase特点 面向列的:面向列族的存储和权限控制,列族独立检索。 稀疏:对于为null的列,并不占用存储空间,因此表可以设置的十分稀疏。 一个表可以非常大 数据库以Region形式存在 易于扩展,可以加节点就可以实现HBase扩展。 支持客户端的高并发操作。 Hbase与hadoop的关系 Hbase与hadoop是一个紧耦合的关系,hbase原创 2020-11-10 19:38:00 · 88 阅读 · 1 评论 -
Hadoop(八)网站流量分析
Hadoop(八)网站流量分析网站流量的多维度分析网站流量指标pageview浏览量unique pageview浏览量网站流量整体架构模块 网站流量的多维度分析 通过统计用户的登录IP,浏览顺序,页面访问来源,访问媒介等方式来对页面浏览情况进行分析。 可以通过流量转化漏斗的方式进行分析。 网站流量指标 pageview浏览量 用户每打开一个页面,记录一个PV unique pageview浏览量 一天之内,访问网站的不重复用户数。通过一个cookie来表示一个用户。 网站流量整体架构模块 流量采集架构模原创 2020-11-09 19:48:25 · 1427 阅读 · 0 评论 -
Hadoop(七)Sqoop
参考文章: Sqoop教程(一) Sqoop数据迁移工具 Sqoop——vue5在线教程 Sqoop简介 Sqoop: “SQL到Hadoop和Hadoop到SQL” Sqoop是一种用于在Hadoop和关系数据库服务器之间传输数据的工具。它用于从MySQL,Oracle等关系数据库向Hadoop HDFS导入数据,并从Hadoop文件系统导出到关系数据库。 Sqoop命令 import数据导入 import:从MySQL导入到HDFS文件系统数据 –connect:数据库JDBC连接字符串jdbc:.原创 2020-11-09 12:41:11 · 86 阅读 · 0 评论 -
Hadoop(六)MapTask与ReduceTask
Hadoop(五)MapTask与ReduceTaskMapTask阶段Map分区partitioner排序sort规约ConbinerReduceTask阶段Copy阶段Merge阶段reduce MapTask阶段 Map 读取数据文件,创建MapTask,进行Map计算。 分区partitioner 创建分区,将相同的key值,进行map阶段的内部reduce。将相同key值的数据发送到同一个reduce中去。 分区的数量和reduceTask的数量相关。分区数量≤reduceTask数量 排序sor原创 2020-11-03 14:50:40 · 240 阅读 · 0 评论 -
Hadoop(五)MapReduce与Yarn
什么是MapReduce MapReduce的核心思想为分治。将一个大的问题,分解为很多个小问题,将小问题进行并行计算。 MapReduce过程 Map阶段 1、将文件进行切片,分片后的文件分别进行map计算,转换为key value值集合 例如文件中有词:abc abd abc ab 转换成 <abc,1>,<abc,1>,<ab,1>,<abd,1> 2、接收key,value集合,自定义自己的map逻辑。然后转换成新的key2,value2集合进原创 2020-11-02 11:13:14 · 372 阅读 · 1 评论 -
Hadoop(四)HDFS
什么是HDFS Hadoop Distributed File System hadoop底层的分布式文件存储系统,可以存储海量的数据。其特点为: 作为一个文件系统,用于存储文件,通过统一的命名空间目录树来定位文件。 分布式存储系统,通过许多服务器联合起来实现功能。 master/slave架构,主从架构。其中namenode用于存储元数据,处理用户请求。datanode用户存储数据。 分块存储,将一个大文件化成一个个小文件进行存储。一个文件块默认为128M大小。(hadoop 2.x) 对外提供统一的文原创 2020-11-01 16:30:34 · 126 阅读 · 0 评论 -
Hadoop(三)架构
总体架构:原创 2020-10-30 19:19:16 · 110 阅读 · 0 评论 -
Hadoop(一)环境部署
单机伪集群部署 环境: Ubuntu18.04虚拟机 Hadoop3.2.1 JDK8 1、下载清华镜像部署安装3.2.1版本 mkdir /var/lib/hadoop cd /var/lib/hadoop wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz tar -zvxf hadoop-3.1.2.tar.gz 2、添加用户组 #添加hadoop用户 s原创 2020-10-27 22:25:50 · 241 阅读 · 0 评论