2019年11月_BigMoM1573

12月 11月 10月

原创 Big Data>第三部分《Hadoop集群搭建》

1.CDH版本Hadoop重新编译2.一：大数据集群安装部署3. 二：CDH 分布式环境搭建4.Hadoop集群初体验5.MapReduce的jobHistory介绍

2019-11-04 09:51:52 525 1

原创 Hive>存储和压缩结合

官网：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORCORC存储方式的压缩：KeyDefaultNotesorc.compressZLIBhigh level compression (one of NONE, ZLIB, SNAPPY)orc.compress.size26...

2019-11-30 17:44:38 175

原创 Hive>Hive支持的数据存储格式

hive的数据存储格式Hive支持的存储数据的格式主要有：TEXTFILE（行式存储）、SEQUENCEFILE(行式存储)、ORC（列式存储）、PARQUET（列式存储）。列式存储和行式存储上图左边为逻辑表，右边第一个为行式存储，第二个为列式存储。行存储的特点：查询满足条件的一整行数据的时候，行存储只需要找到其中一个值，其余的值都在相邻地方。列存储则需要去每个聚集的字段找到对应的...

2019-11-30 17:36:54 1026

原创 Hive>Hive的数据压缩

文章目录hive的数据压缩MR支持的压缩编码压缩配置参数开启Map输出阶段压缩开启Reduce输出阶段压缩hive的数据压缩在实际工作当中，hive当中处理的数据，一般都需要经过压缩，前期我们在学习hadoop的时候，已经配置过hadoop的压缩，我们这里的hive也是一样的可以使用压缩来节省我们的MR处理的网络带宽MR支持的压缩编码压缩格式工具算法文件扩展名是否可切分...

2019-11-30 17:20:35 79

文章目录1.内连接 inner join2.左外连接 left join3.右外连接 right join4.左连接5.右连接6.全连接7.差集SQL Join联接子句用于在两个或更多在数据库中的表的记录组合。JOIN是通过使用从两个表字段共通的值组合连接起来。MySQL官方只提供了三种join方式，内连接、左连接和右连接，不支持其他的连接关键字。但是可以通过一定的语法将达到其他的连接的效果。...

2019-11-30 16:59:36 94

原创 Hive>Hive参数配置方式

文章目录Hive Shell参数Hive命令行Hive参数配置方式Hive Shell参数Hive命令行语法结构hive [-hiveconf x=y]* [<-i filename>]* [<-f filename>|<-e query-string>] [-S]说明：1、-i 从文件初始化HQL。2、-e从命令行执行指定的HQL3、-f ...

2019-11-30 16:15:40 121

原创 Hive>hive查询语法

文章目录hive查询语法SELECT全表查询选择特定列查询列别名常用函数LIMIT语句WHERE语句比较运算符（BETWEEN/IN/ IS NULL）LIKE和RLIKE逻辑运算符（AND/OR/NOT）分组GROUP BY语句HAVING语句JOIN语句等值JOIN表的别名内连接（INNER JOIN）左外连接（LEFT OUTER JOIN）右外连接（RIGHT OUTER JOIN）满外连...

2019-11-30 16:05:21 180

原创 Hive>hive表中的数据导出

文章目录hive表中的数据导出清空表数据hive表中的数据导出将hive表中的数据导出到其他任意目录，例如linux本地磁盘，例如hdfs，例如mysql等等insert导出1）将查询的结果导出到本地insert overwrite local directory '/export/servers/exporthive/a' select * from score;2）将查询...

2019-11-30 15:22:42 358

原创 Hive>hive表中加载数据

直接向分区表中插入数据create table score3 like score;插入数据insert into table score3 partition(month ='201807') values ('001','002','100');通过查询插入数据通过load方式加载数据load data local inpath '/export/servers/hivedat...

2019-11-29 21:22:51 192

原创 Hive>修改表和删除表

表重命名基本语法：alter table old_table_name rename to new_table_name;把表score4修改成score5alter table score4 rename to score5;增加/修改列信息（1）查询表结构desc score5;（2）添加列alter table score5 add columns (myco...

2019-11-29 21:08:50 174

原创 Hive>分桶表

将数据按照指定的字段进行分成多个桶中去，说白了就是将数据按照字段进行划分，可以将数据按照字段划分到多个文件当中去开启hive的桶表功能set hive.enforce.bucketing=true;设置reduce的个数(相当于分桶个数)set mapreduce.job.reduces=3;创建桶表create table course (c_id strin...

2019-11-29 20:53:26 110

原创 Hive>分区表

文章目录创建分区表语法创建一个表带多个分区加载数据到分区表中加载数据到一个多分区的表中去多分区联合查询使用union all来实现查看分区删除分区外部分区表综合练习：第二种实现方式，上传数据之后手动添加分区即可在大数据中，最常用的一种思想就是分治，我们可以把大的文件切割划分成一个个的小的文件，这样每次操作一个小的文件就会很容易了，同样的道理，在hive当中也是支持这种思想的，就是我们可以把大...

2019-11-29 20:41:35 327

原创 Hive＞HIVE简答题

文章目录简答题简答题1、什么是Hive是一个基于hadoop的数据仓库工具，可以将结构化数据映射成一张数据表，并提供类SQL的查询功能2、Hive的意义（最初研发的原因）背景：hadoop是个好东西，但是学习难度大，成本高，坡度陡。意义（目的）：降低程序员使用hadoop的难度。降低学习成本。3、Hive的内部组成模块，作用分别是什么元数据：描述数据的数据内部执行流程...

2019-11-28 21:30:32 841

原创 Hive>Hive的常用运算和函数

文章目录hive 常用运算第一部分：关系运算第二部分：逻辑运算与数学运算第三部分：数值运算第四部分：日期函数第五部分：条件函数第六部分：字符串函数hive 常用运算第一部分：关系运算Hive支持的关系运算符常见的关系运算符等值比较: =不等值比较: <>小于比较: <小于等于比较: <=大于比较: >大于等于比较: &g...

2019-11-25 16:57:54 223

原创 Hive>Hive函数(UDF和reflect)

文章目录内置函数Hive自定义函数UDF开发实例内置函数内容较多，见《Hive官方文档》https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF1）查看系统自带的函数#hive> show functions；hive> show functions 函数名;2）显示自带的函数的用法hive...

2019-11-23 23:58:53 869

原创 Hive>内部表和外部表

文章目录加载数据从linux中加载数据到hive从hdfs中加载数据到hive外部表说明外部表因为是指定其他的hdfs路径的数据加载到表当中来，所以hive表会认为自己不完全独占这份数据，所以删除hive表的时候，数据仍然存放在hdfs当中，不会删掉管理表和外部表的使用场景每天将收集到的网站日志定期流入HDFS文本文件。在外部表（原始日志表）的基础上做大量的统计分析，用到的中间表、...

2019-11-23 16:38:05 185

原创 Hive>Hive创建数据库与创建数据库表

创建数据库与创建数据库表创建数据库并指定hdfs存储位置

2019-11-22 20:09:16 10424 1

原创 Hive>Hive的两种访问方式

文章目录第一种访问方式：Hive交互shell第二种访问方式：Hive JDBC服务（推荐）Hive命令（传选项）第一种访问方式：Hive交互shell在Hive客户端，配置hive到环境变量的前提下，在节点的任意位置直接输入hive + 回车第一种交互方式：Hive交互shellcd /export/servers/hive-1.1.0-cdh5.14.0bin/hive查...

2019-11-21 21:07:28 5746

原创 Hive> HIVE的安装部署

文章目录HIVE的安装部署(一)derby版hive直接使用：1、直接启动 bin/hive使用mysql共享hive元数据mysql数据库的安装方式一（使用rpm包的方式进行安装，`不推荐`）mysql数据库的安装（使用yum源进行安装，强烈推荐）HIVE的安装部署(二)修改hive的配置文件上传mysql的lib驱动包HIVE的安装部署(一)准备集群#启动集群[root@node01...

2019-11-21 18:07:27 116

原创 Hive>Hive基本介绍和 Hive的数据存储

文章目录Hive基本概念为什么使用HiveHive的意义是什么Hive可以对数据进行存储与计算Hive的特点Hive架构Hive与Hadoop的关系Hive与传统数据库对比Hive的数据存储Hive基本概念Hive是一个基于hadoop的数据仓库工具，可以将结构化数据映射成一张数据表，并提供类SQL的查询功能。其本质是将SQL转换为MapReduce的任务进行运算，底层由HDFS来提供数据...

2019-11-21 11:09:30 741

原创 MapReduce> Java代码获取文件名称

获取文件名称在Map中加入以下代码，即可获取读取的文件名称//通过context可以获取这行文本所属的文件名称 FileSplit inputSplit = (FileSplit)context.getInputSplit(); String filename= inputSplit.getPath().getName();代码MoreFileMappe...

2019-11-20 20:56:35 212

原创 MapReduce>Reduce端join与Map端Join算法实现

文章目录1、reduce端join算法实现2 map端join算法实现1、reduce端join算法实现1、需求：订单数据表t_order：iddatepidamount100120150710P00012100220150710P00013100220150710P00023商品信息表t_productidpname...

2019-11-20 20:37:38 109

原创 MapReduce>Java代码应用Snappy压缩算法

操作流程Snappy算法在本地模式里边没有，所以必须得去集群里跑这个代码首先请看操作记录[root@hadoop01 home]# hadoop fs -mkdir /aaaaa在集群新建一个/aaaaa目录[root@hadoop01 home]# hadoop fs -put a.txt /aaaaa/随便建一个a.txt输入任意内容，然后上传到集群的/aaaaa目录下[ro...

2019-11-20 19:57:15 190

原创 MapReduce >集群调优

MTU指跨界点传输时，一次性发送的数据的大小，把它调大，能起到优化效果，但是调大后丢包率会增加，有风险。MTU太大，丢包率高，太小，慢。要找个折中点。集群调优核心思路在网络带宽、磁盘IO是瓶颈的前提下能不使用io 和网络，就不使用。在必须使用的情况下，能少用IO 网络就少用，所有的能够减少网络开销的、减少IO使用的可选项，都可以作为集群调优的可选项。（软件层面（操作系统----集群层...

2019-11-20 14:56:24 117

原创 MapReduce>分布式计算框架MapReduce(C)

1、MapTask运行机制详解以及Map任务的并行度

2019-11-20 14:48:45 497

原创 MapReduce>分布式计算框架MapReduce(B)

文章目录MapReduce的分区与ReduceTask的数量MapReduce的分区与ReduceTask的数量在MapReduce中，通过指定分区，会将同一个分区的数据发送到同一个reduce中，例如为了数据的统计，可以把一批类似的数据发送到同一个reduce当中去，在同一个reduce中统计相同类型的数据，就可以实现类似数据的分区，统计等直观的说就是相同类型的数据，送到一起去处理，在r...

2019-11-16 10:34:27 247

原创 MapReduce>分布式计算框架MapReduce(A)

文章目录分布式并行计算框架MapReduceHadoop为什么比传统技术方案快？理解MapReduce思想MapReduce并行计算Hadoop -MapReduce设计构思MapReduce编程初体验Hadoop组成Hadoop HDFS：一个高可靠、高吞吐量的分布式文件系统，对海量数据的存储。Hadoop MapReduce：一个分布式的资源调度和离线并行计算框架。Hadoop ...

2019-11-14 20:13:53 998

原创 Big Data＞简答题

1.一个文件100M，上传到HDFS占用几个快？一个块128M，剩余的28M怎么办？事实上，128只是个数字，数据超过128M，便进行切分，如果没有超过128M，就不用切分，有多少算多少，不足128M的也是一个快。这个快的大小就是100M，没有剩余28M这个概念。2.大数据为什么这么快?与传统数据相比有什么不同点?a.传统数据纵向扩展,服务器数量不发生变化,配置越来越高,大数据横向扩展,配...

2019-11-10 17:31:01 517

原创 Big Data>HDFS讲义（7）

文章目录9、hdfs的HA以及Yarn的HA高可用HA服务的启动10、Hadoop Federation介绍Federation架构设计Federation示例配置9、hdfs的HA以及Yarn的HA高可用Namenode HA介绍Hadoop1.X版本，NN是HDFS集群的单点故障点，每一个集群只有一个NN,如果这个机器或进程不可用，整个集群就无法使用。为了解决这个问题，出现了一堆针对...

2019-11-09 17:47:33 248

原创 Big Data>HDFS讲义（6）

文章目录8、hdfs其他功能介绍多个集群之间的数据拷贝Hadoop归档文件archivehdfs快照snapShot管理快照使用基本语法快照操作实际案例HDFS回收站8、hdfs其他功能介绍在我们实际工作当中，极有可能会遇到将测试集群的数据拷贝到生产环境集群，或者将生产环境集群的数据拷贝到测试集群，那么就需要我们在多个集群之间进行数据的远程拷贝，Hadoop自带也有命令可以帮我们实现这个功能...

2019-11-09 17:30:43 146

原创 Big Data>HDFS讲义（5）

文章目录7.HDFS的javaAPI操作创建maven工程并导入jar包使用文件系统方式访问数据（掌握）获取FileSystem的几种方式递归遍历文件系统当中的所有文件官方提供的API直接遍历下载文件到本地hdfs上创建文件夹hdfs文件上传javaAPI基本操作HDFS权限问题以及伪造用户HDFS的小文件合并HDFS-Web界面介绍7.HDFS的javaAPI操作由于cdh版本的所有的软件涉...

2019-11-09 16:51:19 444

原创 Big Data>HDFS讲义（4）

6、HDFS新增节点与删除节点服役新数据节点需求基础：随着公司业务的增长，数据量越来越大，原有的数据节点的容量已经不能满足存储数据的需求，需要在原有集群基础上动态添加新的数据节点准备新节点第一步：复制一台新的虚拟机出来将我们纯净的虚拟机复制一台出来，作为我们新的节点第二步：修改mac地址以及IP地址...

2019-11-09 11:22:26 363

原创 Big Data>HDFS讲义（3）

5、Fsimage(记录文件系统的镜像的或者快照)，Edits(记录用户操作日志文件)详解NameNode元数据解析（1）第一次启动namenode格式化后，创建fsimage和edits文件。如果不是第一次启动，直接加载edits和fsimage文件到内存。（2）客户端对元数据进行增删改的请求。（3）namenode记录操作日志，更新滚动日志。（4）namenode在内存中对数据进行增...

2019-11-07 20:32:03 148

原创 Big Data>HDFS讲义（2）

文章目录3、HDFS的shell命令操作HDFS的特性HDFS缺点4、hdfs的高级使用命令HDFS文件限额配置数量限额空间大小限额HDFS安全模式HDFS的文件权限验证3、HDFS的shell命令操作1）基本语法具体命令 bin/hdfs dfs[root@node01 Hadoop-2.6.0-cdh5.14.0]# bin/hdfs dfs2）参数大全Usage: Hadoop...

2019-11-05 20:17:41 367

原创 CAP定理>分布式系统概述

典型的分布式系统应用搜索引擎，索引整个互联网（谷歌，百度）新闻网站（新浪，网易，搜狐）电子邮件聊天通信（腾讯）博客，微博，社会关系网络所有的这些互联网应用都有一个突出的特点：规模极其庞大典型的分布式系统所面临的问题以及处理方法“A distributed system is one in which the failure of a computer you didn’t even...

2019-11-05 15:18:30 204

原创 Big Data>HDFS讲义（1）

文章目录1、 Hadoop的文件系统介绍hadoop 的组成部分HDFS分块存储HDFS副本存放机制Hadoop副本节点选择名字空间（NameSpace）Namenode 功能Datanode功能机架感知2、HDFS文件读写流程HDFS-文件写入流程(重点)HDFS-文件读取流程(重点)数据完整性掉线时限参数设置DataNode的目录结构Hadoop组成Hadoop HDFS：一个高可靠、...

2019-11-05 09:35:29 468

原创 Big Data>第二部分《Hadoop详解》

Hadoop三大公司发型版本介绍1、免费开源版本apache：http://Hadoop.apache.org/优点：拥有全世界的开源贡献者，代码更新迭代版本比较快，缺点：版本的升级，版本的维护，版本的兼容性，版本的补丁都可能考虑不太周到，学习可以用，实际生产工作环境尽量不要使用apache所有软件的下载地址（包括各种历史版本）：http://archive.apache.org/dis...

2019-11-01 23:39:24 209

原创 Big Data>第一部分《大数据概述》

传统数据与大数据处理方式对比系统硬盘（100%完全独立，不要存储业务数据）大数据技术为什么快1、传统数据纵向扩展服务器数量不发生变化，配置越来越高（发生变化）大数据横向扩展配置不发生变化，服务器数量越来越多（发生变化）2 传统的方式资源（cpu/内存/硬盘）集中大数据方式资源（cpu/内存/硬盘）分布(前提：同等配置的前提下)3 传统数据备份方式单份备份大数据数据备份方式...

2019-11-01 23:08:14 255