Hadoop
beautiful_huang
万般皆苦 唯有自度
展开
-
【Hadoop】windows下安装配置Hadoop运行环境(详解)
一、Hadoop下载地址:https://archive.apache.org/dist/hadoop/common/直接解压,不需要安装,放在自己想要放到的目录底下需要设置的变量有HADOOP_HOME C:\hadoop\spark-2.3.3-bin-hadoop2.7PATH:%HADOOP_HOME%\bin上诉内容都准备好之后再次重新打开控制台输入spark-she...原创 2020-02-06 14:46:17 · 1052 阅读 · 0 评论 -
【Spark】RDD行动算子
文章目录简介所有RDD行动算子:数据运算类行动算子reduce——Reduce操作aggregate——聚合操作简介在Spark中转换算子并不会马上进行运算的,即所谓的“惰性运算”,而是在遇到行动算子时才会执行相应的语句的,触发Spark的任务调度开始进行计算。所有RDD行动算子:aggregate、collect、count、first、foreach、reduce、take、take...原创 2020-02-05 16:37:40 · 1014 阅读 · 0 评论 -
【Hive】Hive的三种Join方式
Hive中的join可分为三种,分别是Map-join、Reduce-join和SMB Join,本文简单介绍这三种join的原理和机制。1.Map-join MapJoin的主要意思就是,当链接的两个表是一个比较小的表和一个特别大的表的时候,我们把比较小的table直接放到内存中去,然后再对比较大的表格进行map操作。join就发生在map操作的时候,每当扫描一个大的table中的数据...原创 2020-02-03 16:31:40 · 1505 阅读 · 1 评论 -
【Hive】hive侧视图lateral view和explode用法-简解
explode用法select explode(split("010029,010030,1000001,财富_顶部轮播,财富banner,财富货币资金产品,财富快捷,财富-稳健组合楼层,财富-稳健组合楼层头条,财富-稳健组合推荐产品,财富页三图,财富-专业投资楼层,财富-专业投资推荐产品,首页登录banner,首页登录明星,首页登录头条,首页登录推荐产品,首页-浮层广告,首页快捷,首页明星服务...原创 2020-02-03 10:26:41 · 329 阅读 · 0 评论 -
【Scala】 groupBy、grouped 方法详解
-def groupBy[K](f: (T) ⇒ K): Map[K, Array[T]]按条件分组,条件由 f 匹配,返回值是Map类型,每个key对应一个序列,下面代码实现的是,把小于3的数字放到一组,大于3的放到一组,返回Map[String,Array[Int]]groupBy[K](f: (A) ⇒ K): immutable.Map[K, Repr]可看出来groupBy的参数...原创 2019-12-26 20:12:39 · 13581 阅读 · 0 评论 -
Hive 文件格式详解
hive中的 file_formatSEQUENCEFILE:生产中绝对不会用,k-v格式,比源文本格式占用磁盘更多TEXTFILE:生产中用的多,行式存储RCFILE:生产中用的少,行列混合存储,OCR是他得升级版ORC:生产中最常用,列式存储PARQUET:生产中最常用,列式存储AVRO:生产中几乎不用,不用考虑JSONFILE:生产中几乎不用,不用考虑INPUTFORMAT...原创 2019-12-26 17:56:31 · 1018 阅读 · 0 评论 -
Sqoop 配置与搭建(亲测有效)
文章目录一、Sqoop简介二、Sqoop原理三、Sqoop安装3.1 下载并解压3.2 修改配置文件3.3 拷贝JDBC驱动3.4 配置环境变量3.5 验证是否安装成功一、Sqoop简介Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如: MySQL ,Oracle ,Postgr...原创 2019-12-24 00:34:14 · 354 阅读 · 0 评论 -
hbase shell filter 过滤器用法总结
比较器:前面例子中的regexstring:2014-11-08.、binary:\x00\x00\x00\x05,这都是比较器。HBase的filter有四种比较器:(1)二进制比较器:如’binary:abc’,按字典排序跟’abc’进行比较(2)二进制前缀比较器:如’binaryprefix:abc’,按字典顺序只跟’abc’比较前3个字符(3)正则表达式比较器:如’regexstr...原创 2019-12-24 00:31:32 · 2494 阅读 · 0 评论 -
Java API 连接和操作 Hbase
1、修改pom文件 <!-- https://mvnrepository.com/artifact/org.apache.hbase/hbase-client --> <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase...原创 2019-12-24 00:28:02 · 330 阅读 · 0 评论 -
基于 Hadoop 集群的 zookeeper 与 Hbase 集群搭建
文章目录一、软件版本与系统环境二、zookeeper 安装1、xftp上传zookeeper压缩包并解压2、进入解压好的安装包 在conf文件夹下配置环境3、配置环境变量4、启动zookeeper三、Hbase集群搭建1、xftp上传Hbase压缩包并解压2、环境变量配置3、启动Hbase一、软件版本与系统环境①HBase,1.2.0, 下载链接②ZooKeeper,3.4.5,下载链接二...原创 2019-12-22 17:07:19 · 204 阅读 · 0 评论 -
Hbase 物理架构概述
Hbase物理模型架构体系 hbase工作流程 HRegionServer负责打开region,并创建HRegion实例,它会为每个表的HColumnFamily(用户创建表时定义的)创建一个Store实例,每个Store实例包含一个或多个StoreFile实例。是实际数据存储文件HFile的轻量级封装,每个Store会对应一个MemStore。写入数据时数据...原创 2019-12-22 16:28:01 · 932 阅读 · 0 评论 -
数据库 ACID 模型详解
ACID,是指在数据库管理系统(DBMS)中,事务(transaction)所具有的四个特性:原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation,又称独立性)、持久性(Durability)。原子性:一个事务(transaction)中的所有操作,要么全部完成,要么全部不完成,不会结束在中间某个环节。事务在执行过程中发生错误,会被回滚(Rollback)...原创 2019-12-22 16:23:25 · 2329 阅读 · 0 评论 -
NoSQL 非关系型数据库概述
文章目录一、前言二、为什么使用NoSQL三、NoSQL和关系型数据库对比四、NoSQL 的特点五、NoSQL基本概念六、NoSQL的三大基石(CAP、BASE和最终一致性)CAPBASE最终一致性七、NoSQL分类八、列存储数据库(Wide Column Store)一、前言在开始HBase的学习之前,我们有必要了解一下NoSQL,为什么要使用NoSQL,NoSQL和关系型数据库的对比,N...原创 2019-12-22 16:08:59 · 377 阅读 · 0 评论 -
Hive 下的 Apache Zeppelin 集成部署
文章目录一、Zeppelin简介Zeppelin特性Apache Spark 集成数据可视化二、Zeppelin的安装部署使用Beeline连接hive测试下载 Zeppelin修改配置文件启动zeppelin作为大数据研究分析,我越发觉得有必要能有一款快速上手,能够适合单一数据处理、但后端处理语言繁多的场景相关的开源工具。最近我找到了一款Apache Zeppelin,下面是我初步实战初步收获...原创 2019-12-17 20:11:43 · 448 阅读 · 0 评论 -
Hive 窗口函数
简介本文主要介绍hive中的窗口函数.hive中的窗口函数和sql中的窗口函数相类似,都是用来做一些数据分析类的工作,一般用于olap分析(在线分析处理)。概念我们都知道在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的.但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这...原创 2019-12-15 17:45:55 · 189 阅读 · 0 评论 -
Hive 函数集合(全)
文章目录一、Hive的内嵌函数二、数学函数三、字符函数四、收集函数五、转换函数:六、日期函数:七、条件函数:八、聚合函数:九、表生成函数:一、Hive的内嵌函数二、数学函数round(四舍五入):mysql> select round(45.3456,2),round(6.56787,-1);+------------------+-------------------+| r...原创 2019-12-15 17:01:14 · 1795 阅读 · 1 评论 -
Hive 查询之排序
文章目录一、查询语句注意事项二、排序1、全局排序( order by)2、Sort By3、Distribute By分区排序(Distribute By)4、Cluster By一、查询语句注意事项1、where子句中不能使用字段别名2、like和rlike1)使用LIKE运算选择类似的值2)选择条件可以包含字符或数字:% 代表零个或多个字符(任意个字符)。_ 代表一个字符。3)...原创 2019-12-15 16:14:22 · 840 阅读 · 0 评论 -
Hive DML 数据操纵语言详解
文章目录一、数据导入1.1 向表中装载数据(Load)1.2.实操案例1.3 通过查询语句向表中插入数据(Insert)1.4 查询语句中创建表并加载数据(As Select)1.5创建表时通过Location指定加载数据路径1.6 Import数据到指定Hive表中二、数据导出三、清除表中数据(Truncate)一、数据导入1.1 向表中装载数据(Load)1.语法hive> lo...原创 2019-12-15 14:12:52 · 151 阅读 · 0 评论 -
HDFS 数据流详解
文章目录一、HDFS写数据流程1. 剖析文件写入2. 网络拓扑-节点距离计算3. 机架感知(副本存储节点选择)二、HDFS读数据流程一、HDFS写数据流程1. 剖析文件写入HDFS写数据流程,如下图所示。客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。NameNode返回是否可以上传。...原创 2019-12-15 13:01:12 · 310 阅读 · 0 评论 -
Hive DDL数据定义语言详解
文章目录一 、Apache hive 简介1.1 什么是hive1.2 为什么使用Hive二、Apache hive的架构2.1 hive的组件1)用户接口:2)元数据存储:2.2 hive和hadoop的关系2.3 hive与传统数据库对比2.4 hive的数据模型三、hive安装配置1、mysql安装2、解压、环境变量配置4、引入 mysql 连接 jar包5、格式化 删除hadoop安全模...原创 2019-12-15 12:47:43 · 502 阅读 · 0 评论 -
Hive 数据类型详解
1、基本数据类型对于Hive的String类型相当于数据库的varchar类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存储2GB的字符数。2、集合数据类型Hive有三种复杂数据类型ARRAY、MAP 和 STRUCT。ARRAY和MAP与Java中的Array和Map类似,而STRUCT与C语言中的Struct类似,它封装了一个命名字段集合,复杂数...原创 2019-12-15 12:05:31 · 352 阅读 · 0 评论 -
Hive 安装部署详解
文章目录一 、Apache hive 简介1.1 什么是hive1.2 为什么使用Hive二、Apache hive的架构2.1 hive的组件1)用户接口:2)元数据存储:2.2 hive和hadoop的关系2.3 hive与传统数据库对比2.4 hive的数据模型三、hive安装配置1、mysql安装2、解压、环境变量配置4、引入 mysql 连接 jar包5、初始化 删除hadoop安全模...原创 2019-12-15 12:00:31 · 414 阅读 · 0 评论 -
Hadoop 中 FileSplit (文件分割器)的简单使用
FileSplit 分析FileSplit类继承于InputSplit属性和方法:代码使用详解:package com.njbdqn.test;import org.apache.hadoop.mapred.SplitLocationInfo;import org.apache.hadoop.mapreduce.lib.input.FileSplit;import java...原创 2019-12-10 23:21:40 · 1887 阅读 · 0 评论 -
Hadoop 序列化 Writable 接口和 WritableComparable接口
文章目录序列化定义Writable接口WritableComparable接口序列化定义序列化: ---------为了保留对象状态1.对象的序列化(serialize)指将一个Java对象写入IO流中,对象的反序列化机制(Deserialize)则指从IO流中恢复该Java对象.如果需要让某个对象可以支持序列化机制,必须让它的类是可序列化的(实现Serialize接口或者Extern...原创 2019-12-10 23:05:17 · 1316 阅读 · 0 评论 -
【Hadoop】MapReduce 原理及编程
在MapReduce整个过程可以概括为以下过程:输入 --> map --> shuffle --> reduce -->输出流程简介:通过map task读文件,使用TextInputFormat()方法一次读入整行文件,输入文件会被切分成多个块,每一块都有一个map task补充面试问题: * block块大小的设置: * HDFS中的文件在物理...原创 2019-12-09 23:11:51 · 256 阅读 · 0 评论 -
【Hadoop】 分布式文件管理系统 HDFS
文章目录一、Hadoop简介二、Hadoop的核心三、Hadoop的特点四、HDFS的架构结构模型关系介绍NameNode(NN)1.简介2.NameNode的工作特点3.NameNode主要功能4.NameNode保存metadata信息包括5.NameNode持久化DataNode(DN)SecondaryNameNode(SNN)1.SNN执行合并时机2.SNN执行流程图3.过程介绍Bloc...原创 2019-12-09 22:36:21 · 615 阅读 · 0 评论 -
Hdfs 常用命令
hdfs文件的相关操作主要使用hadoop fs、hadoop dfs、hdfs dfs 命令,以下对最常用的相关命令进行简要说明。hdfs dfs -ls 显示当前目录结构,-ls -R 递归显示目录结构hdfs dfs -mkdir 创建目录hdfs dfs -rm 删除文件,-rm -R 递归删除目录和文件hdfs dfs -put [localsrc] [dst] 从本...原创 2019-12-09 13:33:44 · 247 阅读 · 0 评论 -
Hadoop 分布式集群环境搭建与配置
文章目录一、hadoop 简介基于hadoop的整体分布式模块交互1)分布式系统的定义2)核心内容:文件的目录结构独立存储在一个NameNode上,二具体文件数据,拆分成若干块,冗余的存放在不基于Hadoop的HDFShadoop:HDFS:准备工作:二、安装一、hadoop 简介基于hadoop的整体分布式模块交互1)分布式系统的定义把数据放到一个服务器集群上面,分为:主控服务器(Mas...原创 2019-12-09 13:26:34 · 450 阅读 · 0 评论