大数据
文章平均质量分 87
JokerDa
写完代码多检查两遍!
展开
-
Sqoop简介与安装
Sqoop 简介 Apache Sqoop(TM)是一种旨在有效地在 Apache Hadoop 和诸如关系数据库等结构化数据存储之间传输大量数据的工具。 Sqoop 于 2012 年 3 月孵化出来,现在是一个顶级的 Apache 项目。 最新的稳定版本是 1.4.6。 Sqoop2 的最新版本是 1.99.7。请注意, 1.99.7 与 1.4.6 不兼容,且没有特征不完整,它并不打算用...原创 2018-06-26 00:13:56 · 220 阅读 · 0 评论 -
Hive 压缩和存储
1 Hadoop 源码编译支持 Snappy 压缩 1 资源准备 1) CentOS 联网 配置 CentOS 能连接外网。 Linux 虚拟机 ping www.baidu.com 是畅通的 注意: 采用 root 角色编译,减少文件夹权限出现问题2) jar 包准备(hadoop 源码、 JDK8 、 maven、 protobuf) (1) hadoop-2.7.2-src.t...原创 2018-06-18 23:02:50 · 881 阅读 · 1 评论 -
Hive 函数
1 系统自带的函数 1 查看系统自带的函数 hive> show functions;2 显示自带的函数的用法 hive> desc function upper;3 详细显示自带的函数的用法 hive> desc function extended upper;2 自定义函数 1 Hive 自带了一些函数,比如: max/min 等,但是数量有限,自己可...原创 2018-06-18 22:11:04 · 423 阅读 · 0 评论 -
Hive 查询
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select[WITH CommonTableExpression (, CommonTableExpression)*] (Note: Only available starting with Hive 0.13.0)SELECT [ALL | DISTINC...原创 2018-06-18 19:25:44 · 719 阅读 · 0 评论 -
Zookeeper 实战
1 分布式安装部署 0 集群规划 在 hadoop102、 hadoop103 和 hadoop104 三个节点上部署 Zookeeper。1 解压安装 1)解压 zookeeper 安装包到/opt/module/目录下 [joker@hadoop102 software]$ tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/module/ 2) ...原创 2018-06-10 21:43:07 · 426 阅读 · 0 评论 -
Zookeeper 内部原理
1 选举机制 1 半数机制(Paxos 协议):集群中半数以上机器存活,集群可用。所以 zookeeper适合装在奇数台机器上。2 Zookeeper 虽然在配置文件中并没有指定 master 和 slave。 但是, zookeeper 工作时,是有一个节点为 leader,其他则为 follower, Leader 是通过内部的选举机制临时产生的。3 以一个简单的例子来说明整个选举的...原创 2018-06-10 19:28:31 · 194 阅读 · 0 评论 -
Zookeeper 安装
1 本地模式安装部署 1 安装前准备: 1)安装 jdk 2)通过 SecureCRT 工具拷贝 zookeeper 到 linux 系统下 3)修改 tar 包权限 chmod u+x zookeeper-3.4.10.tar.gz 4)解压到指定目录 tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/module/2 配置修改 将/opt/...原创 2018-06-10 19:16:14 · 173 阅读 · 0 评论 -
Zookeeper 概述
1 概述 Zookeeper 是一个开源的分布式的,为分布式应用提供协调服务的 Apache 项目。 2 特点 1 Zookeeper:一个领导者(leader),多个跟随者(follower)组成的集群。 2 Leader 负责进行投票的发起和决议,更新系统状态。 3 Follower 用于接收客户请求并向客户端返回结果,在选举 Leader 过程中参与投票。 4 集群...原创 2018-06-10 19:06:06 · 233 阅读 · 0 评论 -
Hive DML 数据操作
1 数据导入 1 向表中装载数据(Load) 1)语法 hive>load data [local] inpath '/opt/module/datas/student.txt' [overwrite] into table student [partition (partcol1=val1,…)]; (1) load data:表示加载数据 (2) local:表示从本地加载数据...原创 2018-06-18 00:45:48 · 265 阅读 · 0 评论 -
Hive 知识梳理
1、 order by, sort by, distribute by, cluster by 背景表结构 在讲解中我们需要贯串一个 例子,所以需要设计一个情景,对应 还要有一个表结构和填充数据。如下: 有 3 个字段,分别为 personId 标识某一个人, company 标识一家公司名称,money 标识该公司每年盈利收入(单位:万元人民币)personId company...原创 2018-06-24 13:42:16 · 297 阅读 · 0 评论 -
Hive DDL 数据定义
1 创建数据库 1 创建一个数据库,数据库在 HDFS 上的默认存储路是/user/hive/warehouse/*.db。 hive (default)> create database db_hive;2 避免要创建的数据库已经存在错误,增加 if not exists 判断。(标准写法) hive> create database db_hive; FAILED: E...原创 2018-06-16 16:16:14 · 451 阅读 · 0 评论 -
Hive 数据类型
1 基本数据类型 对于 Hive 的 String 类型相当于数据库的 varchar 类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存储 2GB 的字符数。2 集合数据类型 Hive 有三种复杂数据类型 ARRAY、 MAP 和 STRUCT。 ARRAY 和 MAP 与 Java 中的 Array 和 Map 类似,而 STRUCT 与 C...原创 2018-06-16 15:35:46 · 220 阅读 · 0 评论 -
Kafka工作流程分析
1 Kafka生产过程分析 1 写入方式 producer采用推(push)模式将消息发布到broker,每条消息都被追加(append)到分区(patition)中,属于顺序写磁盘(顺序写磁盘效率比随机写内存要高,保障kafka吞吐率)。2 分区(Partition) Kafka集群有多个消息代理服务器(broker-server)组成,发布到Kafka集群的每条消息都有一...原创 2018-07-08 01:17:40 · 12885 阅读 · 0 评论 -
Kafka API实战
1 环境准备 1 在eclipse中创建一个maven工程 2 加入依赖<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/PO...原创 2018-07-08 12:56:10 · 484 阅读 · 0 评论 -
HDFS HA 高可用
1 HA 概述 1 所谓 HA(high available), 即高可用(7*24 小时不中断服务) 。2 实现高可用最关键的策略是消除单点故障。 HA 严格来说应该分成各个组件的 HA 机制:HDFS 的 HA 和 YARN 的 HA。3 Hadoop2.0 之前,在 HDFS 集群中 NameNode 存在单点故障(SPOF) 。4 NameNode 主要在以下两个方面影响...原创 2018-07-22 14:07:40 · 683 阅读 · 1 评论 -
HBase 项目
1、涉及概念梳理:命名空间 1、 命名空间的结构 1) Table:表,所有的表都是命名空间的成员,即表必属于某个命名空间,如果没有指定,则在 default 默认的命名空间中。2) RegionServer group: 一个命名空间包含了默认的 RegionServer Group。3) Permission: 权限,命名空间能够让我们来定义访问控制列表 ACL(Access ...原创 2018-07-21 23:53:52 · 1130 阅读 · 0 评论 -
HBase 的优化
1、高可用 在 HBase 中 Hmaster 负责监控 RegionServer 的生命周期,均衡 RegionServer 的负载,如果Hmaster 挂掉了,那么整个 HBase 集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以 HBase 支持对 Hmaster 的高可用配置。 1 关闭 HBase 集群(如果没有开启则跳过此步) bin/stop-hbase.sh...原创 2018-07-20 00:26:32 · 381 阅读 · 0 评论 -
Kafka集群部署
1 环境准备 1 集群规划 hadoop102 hadoop103 hadoop104 zk zk zk kafka kafka kafka2 jar包下载 http://kafka.apache.org/downloads.html3 虚拟机准备 1)准备3台虚拟机 2)配置ip地址 3)配置主机名称 4)3台主...原创 2018-07-08 00:43:48 · 192 阅读 · 0 评论 -
HBase 使用
1、 简单使用1、 基本操作 1 进入 HBase 客户端命令行 bin/hbase shell2 查看帮助命令 hbase(main)&gt; help3 查看当前数据库中有哪些表 hbase(main)&gt; list2、 表的操作 1 创建表 hbase(main)&gt; create 'student','info'2 插入数据到表hbase...原创 2018-07-19 00:31:58 · 438 阅读 · 0 评论 -
Kafka概述
1 Kafka是什么 在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。1 Apache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。2 Kafka最初是由LinkedIn公司开发,并于 2011年初开源。2012年10月从Apache Incubator毕业。该项目的目标是为处理实时数据提供...原创 2018-07-06 00:43:51 · 275 阅读 · 0 评论 -
Flume 使用
1、案例一:监控端口数据 目标: Flume 监控一端 Console,另一端 Console 发送消息,使被监控端实时显示。 分步实现: 1 安装 telnet 工具sudo rpm -ivh xinetd-2.3.14-40.el6.x86_64.rpmsudo rpm -ivh telnet-0.17-48.el6.x86_64.rpmsudo rpm -ivh telnet-...原创 2018-07-04 23:10:07 · 273 阅读 · 0 评论 -
Sqoop 一些常用命令及参数
1、 常用命令列举 这里给大家列出来了一部分 Sqoop 操作时的常用参数,以供参考,需要深入学习的可以参看对应类的源代码。 序号 命令 类 说明 1 import ImportTool 将数据导入到集群 2 export ExportTool 将集群数据导出 3 codegen CodeGenTool 获取数...原创 2018-06-29 00:11:31 · 7514 阅读 · 1 评论 -
Flume简介与安装
一、 Flume 简介 1 Flume 提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,Flume 只能在 Unix 环境下运行。2 Flume 基于流式架构,容错性强,也很灵活简单。3 Flume、 Kafka 用来实时进行数据收集, Spark、 Storm 用来实时处理数据, impala 用来实时查询。二、 Flume 角色 1、 Sourc...原创 2018-07-03 23:56:50 · 213 阅读 · 0 评论 -
Sqoop 的简单使用案例
1、导入数据 在 Sqoop 中,“导入”概念指:从非大数据集群(RDBMS) 向大数据集群(HDFS, HIVE,HBASE) 中传输数据,叫做:导入,即使用 import 关键字。1、 RDBMS 到 HDFS 1) 确定 Mysql 服务开启正常 2) 在 Mysql 中新建一张表并插入一些数据mysql -uroot -p000000 mysql> create ...原创 2018-06-28 00:18:43 · 443 阅读 · 0 评论 -
HBase 部署
1、 Zookeeper 正常部署 首先保证 Zookeeper 集群的正常部署,并启动之: /opt/module/zookeeper-3.4.10/bin/zkServer.sh start2、 Hadoop 正常部署 Hadoop 集群的正常部署并启动: /opt/module/hadoop-2.7.2/sbin/start-dfs.sh /opt/module/hadoop-...原创 2018-07-10 00:18:24 · 263 阅读 · 0 评论 -
Kafka producer拦截器与 Stream
Kafka producer拦截器(interceptor)1 拦截器原理 Producer拦截器(interceptor)是在Kafka 0.10版本被引入的,主要用于实现clients端的定制化控制逻辑。对于producer而言,interceptor使得用户在消息发送前以及producer回调逻辑前有机会对消息做一些定制化需求,比如修改消息等。同时,producer允许用户指定多个...原创 2018-07-08 13:30:48 · 901 阅读 · 0 评论 -
Hive 安装
1 Hive 安装地址 1 Hive 官网地址: http://hive.apache.org/ 2 文档查看地址: https://cwiki.apache.org/confluence/display/Hive/GettingStarted 3 下载地址: http://archive.apache.org/dist/hive/ 4 github 地址: https://g...原创 2018-06-15 00:24:42 · 345 阅读 · 0 评论 -
Hive 数据仓库
1 什么是数据仓库 数据仓库,英文名称为 Data Warehouse,可简写为 DW 或 DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。2 数据仓库能干什么? 1 年度销售目标的指定,需要根据以往的历史报表进行决策,不能拍脑袋。 2 如何优...原创 2018-06-21 22:29:01 · 2311 阅读 · 0 评论 -
HDFS的概述与命令操作
一 HDFS 概述1 HDFS 概念 HDFS,它是一个文件系统,用于存储文件,通过目录树来定位文件; 其次,它是分布式的, 由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。 HDFS 的设计适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。2 HDFS 优缺点 优点: 1 高容错性 1)数据自动保存多个副本。它通过增加副本的形式,提原创 2018-05-08 00:00:57 · 313 阅读 · 0 评论 -
Hadoop 序列化
1 为什么要序列化? 一般来说,“活的”对象只生存在内存里,关机断电就没有了。而且“活的”对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。 然而序列化可以存储“活的”对象,可以将“活的”对象发送到远程计算机2 什么是序列化? 序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输。 反序列化就是将收到字节序列(或其他数据传输协议)或者是...原创 2018-05-20 17:57:50 · 162 阅读 · 0 评论 -
WordCount 案例
统计一堆文件中单词出现的个数 0 需求:在一堆给定的文本文件中统计输出每一个单词出现的总次数 1 数据准备:hello.txthadoop spring javajava sparkhadoop java springhive zookeeper solrspark stromhadoop spring javajava sparkhadoop java springhi...原创 2018-05-20 12:35:11 · 2142 阅读 · 0 评论 -
DataNode 工作机制
1 DataNode 工作机制1 一个数据块在 datanode 上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。2 DataNode 启动后向 namenode 注册, 通过后,周期性(1 小时) 的向 namenode 上报所有的块信息。3 心跳是每 3 秒一次,心跳返回结果带有 namenode 给该 d...原创 2018-05-14 00:08:24 · 4494 阅读 · 0 评论 -
完全分布式部署 Hadoop
分析: 1) 准备 3 台客户机(关闭防火墙、 静态 ip、主机名称) 2) 安装 jdk 3) 配置环境变量 4) 安装 hadoop 5) 配置环境变量 6) 安装 ssh 7) 配置集群 8) 启动测试集群1 虚拟机准备复制3份备份的hadoop101,然后将其加入到vmware中 如果之前没添加用户则可以#切换到rootadduser jokerpasswd joker原创 2018-05-07 00:05:43 · 555 阅读 · 1 评论 -
NameNode 工作机制
1 NameNode&amp;amp;amp;Secondary NameNode 工作机制原创 2018-05-13 13:49:51 · 4335 阅读 · 0 评论 -
HDFS 的数据流
1 HDFS 写数据流程1 剖析文件写入 1 客户端通过 Distributed FileSystem 模块向 namenode 请求上传文件, namenode 检查目标文件是否已存在,父目录是否存在。2 namenode 返回是否可以上传。3 客户端请求第一个 block 上传到哪几个 datanode 服务器上。4 namenode 返回 3 个 datanode ...原创 2018-05-12 14:33:07 · 484 阅读 · 0 评论 -
配置临时文件存储路径、历史服务器、日志的聚集
配置临时文件存储路径 1) 停止进程sbin/yarn-daemon.sh stop nodemanagersbin/yarn-daemon.sh stop resourcemanagersbin/hadoop-daemon.sh stop datanodesbin/hadoop-daemon.sh stop namenode2) 修改 hadoop.tmp.dir [core-site.原创 2018-05-05 18:08:31 · 1330 阅读 · 0 评论 -
YARN 上运行 MapReduce 程序
(1) 准备 1 台客户机 (2) 安装 jdk (3) 配置环境变量 (4) 安装 hadoop (5) 配置环境变量 (6) 配置集群 yarn 上运行 配置 yarn-env.sh: 去下面的目录/opt/module/hadoop-2.7.2/etc/hadoopvim yarn-env.sh #加入javahomeexport JAVA_HOME=/opt/module/原创 2018-05-05 17:02:37 · 332 阅读 · 0 评论 -
伪分布式运行 Hadoop
启动 HDFS 并运行 MapReduce 程序 (1) 准备 1 台客户机 (2) 安装 jdk (3) 配置环境变量 (4) 安装 hadoop (5) 配置环境变量 (6) 配置集群配置: hadoop-env.sh: 去下面的目录/opt/module/hadoop-2.7.2/etc/hadoopecho $JAVA_HOME/opt/module/jdk1.8.0_151原创 2018-05-05 15:57:03 · 428 阅读 · 0 评论 -
Hadoop单机环境搭建
1. 安装linux系统(以centos 6.5为例) 2. 关闭防火墙关闭命令: service iptables stop 永久关闭防火墙:chkconfig iptables off查看防火墙关闭状态: chkconfig iptables --list3. 修改IP配置文件vim /etc/udev/rules.d/70-persistent-net.rules 拿...原创 2018-05-05 14:41:44 · 622 阅读 · 0 评论 -
MapReduce 入门
1 MapReduce 定义Mapreduce 是一个分布式运算程序的编程框架,是用户开发“基于 hadoop 的数据分析应用”的核心框架。 Mapreduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个 hadoop 集群上。## 标题 ##2 MapReduce 优缺点1 优点 1 MapReduce 易于编程。 它简单...原创 2018-05-17 23:27:15 · 152 阅读 · 0 评论