2020年09月_m0_48714980

原创 sqoop

第1章 Sqoop简介Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于2009年，最早是作为Hadoop的一个第三方模块存在，后来为了让使用者能够快速部署，也为了让开发人员能够更快速的迭代开发，Sqoop独立成为一个Apache项目。

2020-09-26 15:08:56 87

原创 hive和hbase如何实现互通

.进入hive的和hbase的shell客户端[hadoop@cdhnode3 ~]$ ./app/hbase-1.0.0-cdh5.4.5/bin/hbase shell[hadoop@cdhnode5 ~]$ hive1232.在hive下面创建CREATE TABLE hbase01(key string, name string)STORED BY ‘org.apache.hadoop.hive.hbase.HBaseStorageHandler’WITH SERDEPROPERT

2020-09-26 00:03:27 295

原创 hbase中的region

HBase 基本概念1、regionregion 是部分数据，所以是所有数据的一个自己，但region包括完整的行，所以region 是行为单位表的一个子集。每个region 有三个主要要素:它所属于哪张表它所包含的的第一行(第一个region 没有首行)他所包含的最后一行(末一个region 没有末行)当表初写数据时，此时表只有一个region ,当随着数据的增多，region 开始变大，等到它达到限定的阀值大小时，变化把region 分裂为两个大小基本相同的region,而这个阀值就

2020-09-25 23:55:28 1892

原创 hbase介绍

HBase是一个构建在HDFS上的分布式列存储系统；HBase是基于Google BigTable模型开发的，典型的key/value系统；HBase是Apache Hadoop生态系统中的重要一员，主要用于海量结构化数据存储；从逻辑上讲，HBase将数据按照表、行和列进行存储。与hadoop一样，Hbase目标主要依靠横向扩展，通过不断增加廉价的商用服务器，来增加计算和存储能力。Hbase表的特点大：一个表可以有数十亿行，上百万列；无模式：每行都有一个可排序的主键和任意多的列，列可以根据需要

2020-09-25 08:20:13 291

原创 hive 自带函数

Hive 自带了一些函数，比如：max/min等，当Hive提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义函数(UDF).根据用户自定义函数类别分为以下三种：UDF（User-Defined-Function）一进一出UDAF（User-Defined Aggregation Function）聚集函数，多进一出类似于： count / max / minhive> show functions;hive> desc function u..

2020-09-22 13:39:10 184

原创 hive

、Hive的数据存储　　1、Hive中所有的数据都存储在 HDFS 中，没有专门的数据存储格式（可支持Text，SequenceFile，ParquetFile，RCFILE等）2、只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符，Hive 就可以解析数据。3、Hive 中包含以下数据模型：DB、Table，External Table，Partition，Bucket。（1）：db：在hdfs中表现为${hive.metastore.warehouse.dir}目录下一个文件夹（2

2020-09-16 19:28:37 203

原创 zookeeper

1 Zookeeper 的概述Zookeeper 是一个开源的分布式协调服务框架，主要用来解决分布式集群中应用系统的一致性问题和数据管理问题2:Zookeeper的特点Zookeeper 本质上是一个分布式文件系统, 适合存放小文件，也可以理解为一个数据库在上图左侧, Zookeeper 中存储的其实是一个又一个 Znode, Znode 是 Zookeeper 中的节点node 是有路径的, 例如/data/host1, /data/host2, 这个路径也可以理解为是Znode 的 NameZno

2020-09-16 07:07:06 132

原创 MapReduce分区

删除线格式 PartitionMapper类package cn.kgc.kb09.partition;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;/**@Au

2020-09-11 17:36:46 123

原创 WordCount（1）

1.读取文件需要用到抽象类InputFormat的子类TextInputFormat，把文件每行变成键值对如图，此时k1是距离文本开头的偏移量，v1为每行的内容，该键值对因TextInputFormat而产生，不需要手动书写2.进入Map ，自定义Map逻辑，将k1 v1转为k2 v2继承Mapper，重写map方法3.进入shuffle阶段，此时拿到的数据是上述k2 v2分区排序规约分组4.通过shuffle流程以后，我们会得到新的k2 v25.进入Reduce阶段，自

2020-09-10 18:50:31 100

原创 Mapreduce （2）

Map阶段shuffle阶段

2020-09-10 18:21:06 53

原创 MapReduce （1）

一：MapReduce设计构思MadReduce运行在yarn集群1 ResourceManager 主节点负责整个资源任务的调度和分配2.NodeManager 从节点负责具体的运算1.client申请计算任务2.ResourceManger收到任务，启动两个子文件Applications Manger 和 Resource Scheduler3.Applications Manger 会在某一个NodeManger上启动一个进程，叫MR App Mstr4.A

2020-09-10 17:03:53 145

原创 hadoop核心-hdfs

1.1配置window下的hadoop环境1.2导入Maven依赖1.3使用url方式访问数据（了解）1.4使用文件系统方式访问数据（掌握）1.4.11.4.2获取FileSystem的几种方式（1）（2）（3）（4）1.4.3遍历HDFS中所有文件使用API遍历同上1.4.4HDFS上创建文件夹注意点：要有root，否则系统会报错1.4.5下载文件...

2020-09-10 01:03:30 68

原创 hadoop安装1

1虚拟机的配置（非重点）vi /etc/sysconfig/network-scripts/ifcfg-ens33接下来static yes修改就行IPADDR=xxx先esc退出编辑，再:wqsystemctl restart networksystemctl stop firewalld2.jdk的安装：systemctl status firewalld//关闭防火墙systemctl disable firewalld//禁用防火墙Ctrl+l//清屏cd /opt 上传

2020-09-03 19:39:24 59

原创 elasticsearch

elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，能很方便地使大量数据具有搜索、分析和探索的能力。其基于RESTful web接口，是用Java开发的，并作为Apache许可条款下的开放源码发布，是企业级搜索引擎。1安装以windows操作系统和ES0.19.7版本为例：①下载elasticsearch-0.19.7.zip②直接解压至某目录，设置该目录为ES_HOME环境变量③安装JDK，并设置JAVA_HOME环境变量④在window

2020-09-03 19:18:50 70

m0_48714980的博客