自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 sqoop

第1章 Sqoop简介Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。

2020-09-26 15:08:56 87

原创 hive和hbase如何实现互通

.进入hive的和hbase的shell客户端[hadoop@cdhnode3 ~]$ ./app/hbase-1.0.0-cdh5.4.5/bin/hbase shell[hadoop@cdhnode5 ~]$ hive1232.在hive下面创建CREATE TABLE hbase01(key string, name string)STORED BY ‘org.apache.hadoop.hive.hbase.HBaseStorageHandler’WITH SERDEPROPERT

2020-09-26 00:03:27 295

原创 hbase中的region

HBase 基本概念1、regionregion 是部分数据,所以是所有数据的一个自己,但region包括完整的行,所以region 是行为单位 表的一个子集。每个region 有三个主要要素:它所属于哪张表它所包含的的第一行(第一个region 没有首行)他所包含的最后一行(末一个region 没有末行)当表初写数据时,此时表只有一个region ,当随着数据的增多,region 开始变大,等到它达到限定的阀值大小时,变化把region 分裂为两个大小基本相同的region,而这个阀值 就

2020-09-25 23:55:28 1892

原创 hbase介绍

HBase是一个构建在HDFS上的分布式列存储系统;HBase是基于Google BigTable模型开发的,典型的key/value系统;HBase是Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储;从逻辑上讲,HBase将数据按照表、行和列进行存储。与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。Hbase表的特点大:一个表可以有数十亿行,上百万列;无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要

2020-09-25 08:20:13 291

原创 hive 自带函数

Hive 自带了一些函数,比如:max/min等,当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF).根据用户自定义函数类别分为以下三种:UDF(User-Defined-Function)一进一出UDAF(User-Defined Aggregation Function)聚集函数,多进一出类似于: count / max / minhive> show functions;hive> desc function u..

2020-09-22 13:39:10 184

原创 hive

、Hive的数据存储  1、Hive中所有的数据都存储在 HDFS 中,没有专门的数据存储格式(可支持Text,SequenceFile,ParquetFile,RCFILE等)2、只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符,Hive 就可以解析数据。3、Hive 中包含以下数据模型:DB、Table,External Table,Partition,Bucket。(1):db:在hdfs中表现为${hive.metastore.warehouse.dir}目录下一个文件夹(2

2020-09-16 19:28:37 203

原创 zookeeper

1 Zookeeper 的概述Zookeeper 是一个开源的分布式协调服务框架,主要用来解决分布式集群中应用系统的一致性问题和数据管理问题2:Zookeeper的特点Zookeeper 本质上是一个分布式文件系统, 适合存放小文件,也可以理解为一个数据库在上图左侧, Zookeeper 中存储的其实是一个又一个 Znode, Znode 是 Zookeeper 中的节点node 是有路径的, 例如/data/host1, /data/host2, 这个路径也可以理解为是Znode 的 NameZno

2020-09-16 07:07:06 132

原创 MapReduce分区

删除线格式 PartitionMapper类package cn.kgc.kb09.partition;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;/**@Au

2020-09-11 17:36:46 123

原创 WordCount(1)

1.读取文件 需要用到抽象类InputFormat的子类TextInputFormat,把文件每行变成键值对如图,此时k1是距离文本开头的偏移量,v1为每行的内容,该键值对因TextInputFormat而产生,不需要手动书写2.进入Map ,自定义Map逻辑,将k1 v1转为k2 v2继承Mapper,重写map方法3.进入shuffle阶段,此时拿到的数据是上述k2 v2分区 排序 规约 分组4.通过shuffle流程以后,我们会得到新的k2 v25.进入Reduce阶段,自

2020-09-10 18:50:31 100

原创 Mapreduce (2)

Map阶段shuffle阶段

2020-09-10 18:21:06 53

原创 MapReduce (1)

一:MapReduce设计构思MadReduce运行在yarn集群1 ResourceManager 主节点 负责整个资源任务的调度和分配2.NodeManager 从节点 负责具体的运算1.client申请计算任务2.ResourceManger收到任务,启动两个子文件Applications Manger 和 Resource Scheduler3.Applications Manger 会在某一个NodeManger上启动一个进程,叫MR App Mstr4.A

2020-09-10 17:03:53 145

原创 hadoop核心-hdfs

1.1配置window下的hadoop环境1.2导入Maven依赖1.3使用url方式访问数据(了解)1.4使用文件系统方式访问数据(掌握)1.4.11.4.2获取FileSystem的几种方式(1)(2)(3)(4)1.4.3遍历HDFS中所有文件使用API遍历同上1.4.4HDFS上创建文件夹注意点:要有root,否则系统会报错1.4.5下载文件...

2020-09-10 01:03:30 68

原创 hadoop安装1

1虚拟机的配置(非重点)vi /etc/sysconfig/network-scripts/ifcfg-ens33接下来static yes修改就行IPADDR=xxx先esc退出编辑,再:wqsystemctl restart networksystemctl stop firewalld2.jdk的安装:systemctl status firewalld//关闭防火墙systemctl disable firewalld//禁用防火墙Ctrl+l//清屏cd /opt 上传

2020-09-03 19:39:24 59

原创 elasticsearch

elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,能很方便地使大量数据具有搜索、分析和探索的能力。其基于RESTful web接口,是用Java开发的,并作为Apache许可条款下的开放源码发布,是企业级搜索引擎。1安装以windows操作系统和ES0.19.7版本为例:①下载elasticsearch-0.19.7.zip②直接解压至某目录,设置该目录为ES_HOME环境变量③安装JDK,并设置JAVA_HOME环境变量④在window

2020-09-03 19:18:50 70

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除