自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 Flume

一.Flume框架基础1.Flume在集群中扮演的角色Flume,Kafka用来实时进行数据收集,Spark,Storm用来实时处理数据,impala用来实时查询,2.Flume简介:2.1.Flume提供了一个分布式的,可靠的,对大数据量的日志进行高效收集、聚焦、移动的服务,Flume只能在Unix环境下运行.2.2.Fume基于流式框架,容错性强,也很灵活简单,主要用于在线实时分析....

2018-09-26 17:28:01 219

原创 HBase入门(五)

一.HBase的MapReduce的调用1.1查看HBase执行Mapreduce所依赖的jar包bin/hbase mapredcp1.2执行的环境变量的导入$ export HBASE_HOME=/opt/modules/cdh/hbase-0.98.6-cdh5.3.6/$ export HADOOP_HOME=/opt/modules/cdh/hadoop-2.5.0-cdh5....

2018-09-25 15:04:51 121

原创 HBase(操作API)

HBase操作API,伪分布式package org.xiaowu.test;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import o...

2018-09-19 21:05:44 146

原创 HBase(入门三)读写流程

一.HBase和Hadoop的集群类型1.单机模型主要用于开发工作,一台机器上运行所有的守护进程,或者一台机器运行多个虚拟机,一般用于评估和测试.2.小型集群20台机器以内的集群,不同的机器运行不同的守护线程,适用于数据量和处理请求较小的小型生产环境.3.中型集群20到1000台机器集群,3到5个zooKeeper节点,适用于成熟的生产环境.4.大型集群1000台机器以上的集群,属...

2018-09-19 08:57:36 538

原创 HBase入门(二)

1.在Client向region中写数据的整个过程中,Hlog和内存中的数据都是过渡的数据,当写入region成功后,Hlog里的数据和内存中数据会定时删除的,以防止内存不足.一.LRU算法,HBase面向列读取数据很快原理leastest recently used二.HBase角色担当:HMaster:1.监控RegionServer2.处理RegionServer故障转移3...

2018-09-18 14:11:28 211

原创 HBase入门(一)

1.HBase是依赖HDFS的,HBase的数据是存在RegionServer上的,然后RegionServer数据又存在于datanode. 2. HBase有两个节点HMaster(主)和RegionServer(从) 3. HBase操作表的时候需要元数据,元数据存在zooKeeper上面. 4. 之前学习中,有一条数据,这条信息的所有数据都先进到内存中,然后再把内存中的数据溢写到磁盘...

2018-09-18 09:16:05 196

原创 Sqoop入门(一)

一.Sqoop初体验: 安装配置完Sqoop后要拷贝jdbc驱动包到sqoop的lib目录下 bin/sqoop help查看帮助测试sqoop是否连接成功:[hadoop@mylinux sqoop-1.4.5-cdh5.3.6]$ bin/sqoop \> list-databases --connect jdbc:mysql://mylinux:3306/ \> ...

2018-09-16 18:45:25 260

原创 Hive入门(二) SQL操作

1.在Hive中用show functions;查看所有系统自带的函数. 2.查询每个部门薪资最高的数目 select deptno,max(sal) from emp GROUP BY deptno; 3.查询显示员工姓名,员工编号,部门名称 select e.enam,e.empno,d.danme FROM emp e JOIN dept d ON e.deptno=d....

2018-09-16 16:45:34 306

原创 Hive入门(三)

一.Hive中Mysql的引入 1.Hive为啥要依赖一个数据库? Hive的源数据字段的映射,并且源数据的存储信息,文件序列需要存储在数据库中进行说明. 2.为啥Hive要借助关系型数据库? Hive的元数据默认保存在debey数据库中,debey数据库只能单用户登陆,业务效率不高,所以需要借助mysql,oracle这类型的关系型数据库. 3.Service my...

2018-09-16 16:44:48 148

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除