大数据
chipeize
这个作者很懒,什么都没留下…
展开
-
Hadoop_day05_MapReduce相关概念
1.MapReduce介绍 MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。 Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。 Reduce负责“合”,即对ma...原创 2019-08-20 19:39:20 · 116 阅读 · 0 评论 -
Hive(数据仓库)数据仓库和 Hive 的基本概念
1. 数据仓库1.1 基本概念 英文名称为 Data Warehouse,可简写为 DW 或 DWH。数据仓库的目的是构建面相分析的集成化数据环境,为企业提供决策支持(Decision Support)。 数据仓库是存数据的,企业的各种数据往里面存,主要目的是为了分析有效数据,后续会基于它产出供分析挖掘的数据,或者数据应用需要的数据,如企业的分析性报告和各类报表...原创 2019-08-26 20:41:27 · 2496 阅读 · 0 评论 -
Hive(数据仓库) Hive 的安装
Hive 的安装这里我们选用hive的版本是2.1.1下载地址为:http://archive.apache.org/dist/hive/hive-2.1.1/apache-hive-2.1.1-bin.tar.gz下载之后,将我们的安装包上传到第三台机器的/export/softwares目录下面去第一步:上传并解压安装包将我们的hive的安装包上传到第三台服务器的/expo...原创 2019-08-26 20:44:48 · 215 阅读 · 0 评论 -
Hadoop生态圈之Flume(一)
1. 概述 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件。 Flume的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功,在送到目的地(sink)之前,会先缓存数据(channel),待数据真正到达目的地(sink)后,flume在删除自己缓存的...原创 2019-08-29 20:19:46 · 587 阅读 · 0 评论 -
Hive(数据仓库) Hive 的交互方式和基本操作
1. Hive 的交互方式第一种交互方式:bin/hive第二种交互方式:使用 sql 语句或者 sql 脚本进行交互2. Hive 的基本操作2.1 数据库操作创建数据库:create database if not exists myhive;创建数据库并指定位置:create database myhive location '/myhi...原创 2019-09-02 20:16:00 · 381 阅读 · 0 评论 -
Hive(数据仓库)Hive 的查询语法、shell参数、函数
4. Hive 查询语法4.1. SELECTSELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_reference[WHERE where_condition][GROUP BY col_list [HAVING condition]][CLUSTER BY col_list| [DISTRIBUTE BY...原创 2019-09-02 20:21:02 · 551 阅读 · 0 评论 -
Hive(数据仓库)数据压缩、数据存储格式
7.hive的数据压缩在实际工作当中,hive当中处理的数据,一般都需要经过压缩,前期我们在学习hadoop的时候,已经配置过hadoop的压缩,我们这里的hive也是一样的可以使用压缩来节省我们的MR处理的网络带宽**7.1 **MR支持的压缩编码压缩格式工具算法文件扩展名是否可切分DEFAULT无DEFAULT.deflate否Gzipgzip...原创 2019-09-02 20:22:55 · 1034 阅读 · 0 评论 -
Hive(数据仓库)Hive 调优
10.hive调优10.1 Fetch抓取Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM score;在这种情况下,Hive可以简单地读取score对应的存储目录下的文件,然后输出查询结果到控制台。通过设置hive.fetch.task.conversion参数,可以控制查询语句是否走MapReduce.案例实操:1)把hive.fetch....原创 2019-09-02 20:23:36 · 239 阅读 · 0 评论 -
Hadoop生态圈之Flume(二)
Flume拦截器实战案例日志采集和汇总案例场景A、B两台日志服务机器实时生产日志主要类型为access.log、nginx.log、web.log现在要求:把A、B 机器中的access.log、nginx.log、web.log 采集汇总到C机器上然后统一收集到hdfs中。但是在hdfs中要求的目录为:/source/logs/access/20160101/**...原创 2019-09-02 20:31:09 · 109 阅读 · 0 评论 -
Hadoop生态圈之Sqoop(一)
Apache Sqoop 介绍 Apache Sqoop 是在 Hadoop 生态体系和 RDBMS 体系之间传送数据的一种工具 Sqoop 工作机制是将导入或导出命令翻译成 mapreduce 程序来实现。在翻译出的 mapreduce 中主要是对 inputformat 和 outputformat 进行定制。 Hadoop 生态系统包括: HDFS、 H...原创 2019-09-16 10:07:59 · 437 阅读 · 0 评论 -
Hadoop生态圈之Azkaban(一)
Azkaban1.工作流 工作流(Workflow),指“业务过程的部分或整体在计算机应用环境下的自动化”。是对工作流程及其各操作步骤之间业务规则的抽象、概括描述。 工作流解决的主要问题是:为了实现某个业务目标,利用计算机软件在多个参与者之间按某种预定规则自动传递文档、信息或者任务。 一个完整的数据分析系统通常都是有多个前后依赖的模块组合构...原创 2019-09-16 10:20:54 · 161 阅读 · 0 评论 -
Hadoop生态圈之Impala(一)
Apache Impala impala 是 cloudera 提供的一款高效率的 sql 查询工具,提供实时的查询效果 impala 是基于 hive 并使用内存进行计算,兼顾数据仓库,具有实时,批处理,多并发等优点。Impala 与 Hive 关系 impala 是基于 hive 的大数据分析查询引擎,直接使用 hive 的元数据...原创 2019-09-16 10:34:41 · 539 阅读 · 0 评论 -
Hadoop生态圈之Oozie(一)
Apache Oozie Oozie 是一个用来管理 Hadoop 生态圈 job 的工作流调度系统。由 Cloudera 公司贡献给 Apache。 Oozie 是运行于 Java servlet 容器上的一个 java web 应用。 Oozie 的目的是按照 DAG(有向无环图) 调度一系列的 Map/Reduce 或者 Hive 等任务。 Oozie 工作流由 hPDL(Hadoop...原创 2019-09-16 10:39:14 · 369 阅读 · 0 评论 -
Hadoop生态圈之Hue(一)
Apache Hue HUE=Hadoop User Experience Hue 是一个开源的 Apache Hadoop UI 系统,由 Cloudera Desktop 演化而来,最后 Cloudera 公司将其贡献给 Apache 基金会的 Hadoop 社区,它是基于 Python Web 框架 Django 实现的。 通过使用...原创 2019-09-16 10:51:14 · 369 阅读 · 0 评论 -
Hadoop_day06_MapReduce 的 经典案例(求共同好友)
1. 需求分析以下是qq的好友列表数据,冒号前是一个用户,冒号后是该用户的所有好友(数据中的好友关系是单向的)A:B,C,D,F,E,OB:A,C,E,KC:A,B,D,E,I D:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,...原创 2019-08-26 20:22:21 · 185 阅读 · 0 评论 -
Hadoop_day06_MapReduce 的 Reduce 和 Map 端实现 join 操作
一、Reduce 端1. 需求商品表id pname category_id price P0001 小米5 1000 2000 P0002 锤子T1 1000 3000 订单数据表id date pid amount 1001 20150710 P0001 2 1002...原创 2019-08-26 20:12:40 · 117 阅读 · 0 评论 -
Hadoop_day04_HDFS的API操作
1、在 Windows 下配置 Hadoop 环境1.1 未配置会产生的问题缺少 winutils.exeCould not locate executable null \bin\winutils.exe in the hadoop binaries 缺少 hadoop.dllUnable to load native-hadoop library for your pl...原创 2019-08-20 19:29:51 · 133 阅读 · 0 评论 -
Hadoop_day05_MapReduce 的入门案例(WordCount:统计单词出现次数)
1. 数据格式准备1.1 创建一个新的文件cd /export/serversvim wordcount.txt1.2 向其中放入以下内容并保存hello,world,hadoophive,sqoop,flume,hellokitty,tom,jerry,worldhadoop1.3 上传到 HDFShdfs dfs -mkdir /wordcount/hd...原创 2019-08-20 19:45:52 · 316 阅读 · 0 评论 -
Hadoop_day05_MapReduce 的 Shuffle 详解(分区、排序、规约、分组)
一、分区在 MapReduce 中, 通过我们指定分区, 会将同一个分区的数据发送到同一个 Reduce 当中进行处理 例如: 为了数据的统计, 可以把一批类似的数据发送到同一个 Reduce 当中, 在同一个 Reduce 当中统计相同类型的数据, 就可以实现类似的数据分区和统计等 其实就是相同类型的数据, 有共性的数据, 送到一起去处理 ...原创 2019-08-20 20:04:13 · 1167 阅读 · 0 评论 -
Hadoop_day05_MapReduce 的 经典案例(流量统计)
需求一:统计求和 统计每个手机号的上行数据包总和,下行数据包总和,上行总流量之和,下行总流量之和分析:以手机号码作为key值,上行流量,下行流量,上行总流量,下行总流量四个字段作为value值,然后以这个key,和value作为map阶段的输出,reduce阶段的输入1.1 自定义SumBeanpublic class SumBean implements Writa...原创 2019-08-20 20:21:40 · 690 阅读 · 0 评论 -
Hadoop_day01_大数据的概念及磁盘存储
Hadoop预备知识1.大数据课程导论1.1.大数据概念 大数据bigdata,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。1Byte...原创 2019-08-15 19:27:18 · 796 阅读 · 0 评论 -
Hadoop_day01_hadoop环境搭建(Linux)
集群环境搭建1.注意事项1.1 确认所有VmWare服务已启动1.2 确认VmWare网关地址1.3 确认VmNet8配置好IP地址和DNS2.复制虚拟机2.1 将虚拟机文件夹复制三份,并分别重命名, 并使用VM打开重命名2.2设置三台虚拟机内存需要三台虚拟机, 并且需要同时运行, 所以总体上的占用为: 每台虚拟机内存×3每台虚拟机内存 \times 3每台虚拟机内...原创 2019-08-15 19:37:42 · 206 阅读 · 0 评论 -
Hadoop_day01_hadoop辅助软件(Linux)
辅助软件JDK&mysql1.三台机器安装jdk1.1 查看自带的openjdk并卸载rpm -qa | grep javarpm -e java-1.6.0-openjdk-1.6.0.41-1.13.13.1.el6_8.x86_64 tzdata-java-2016j-1.el6.noarch java-1.7.0-openjdk-1.7.0.131-2.6.9.0.el6_...原创 2019-08-15 19:42:14 · 172 阅读 · 0 评论 -
Hadoop_day01_Zookeeper概述及安装
Zookeeper1.Zookeeper 的概述Zookeeper 是一个开源的分布式协调服务框架 ,主要用来解决分布式集群中应用系统的一致性问题和数据管理问题2.Zookeeper的特点Zookeeper 本质上是一个分布式文件系统, 适合存放小文件,也可以理解为一个数据库在上图左侧, Zookeeper 中存储的其实是一个又一个 Znode, Znode 是 Zooke...原创 2019-08-15 19:46:37 · 168 阅读 · 0 评论 -
Hadoop_day02_Zookeeper的深入理解和操作(客户端、API(Java))
1. zookeeper的数据类型ZooKeeper 的数据模型,在结构上和标准文件系统的非常相似,拥有一个层次的命名空间,都是采用树形层次结构. ZooKeeper 树中的每个节点被称为—个Znode。和文件系统的目录树一样,ZooKeeper 树中的每个节点可以拥有子节点。 zookeeper树和文件系统的目录树不同之处:Znode 兼具文件和目录两种特点。既像文件一样维护着数据、元...原创 2019-08-15 20:12:27 · 140 阅读 · 0 评论 -
Hadoop_day03_HDFS重点概念(架构、读写过程、机架感知、NameNode、DataNode、SecondaryNameNode)
一、HDFS的架构:1:Client(客户端) 文件切分。文件上传到HDFS的时候,Client将文件切分成一个个block,然后进行存储 与NameNode进行交互,获取文件的位置信息 与DataNode进行交互,读取或者写入数据 Client提供一些命令来管理和访问HDFS,比如启动或者关闭HDFS 2:NameNode(master,一个管理者)...原创 2019-08-17 19:46:45 · 222 阅读 · 0 评论 -
Hadoop_day03_HDFS的命令行操作
--查看路径 hdfs dfs -ls -R path--查看内容 hdfs dfs -cat path--创建文件夹 hdfs dfs -mkdir -p path--本地上传到HDFS --拷贝 hdfs dfs -put localsrc dst--本地上传到HDFS --剪切 hdfs dfs -moveFromLocal local...原创 2019-08-17 19:48:04 · 115 阅读 · 0 评论 -
Hadoop_day06_MapReduce 的工作机制详解
1. MapTask 工作机制简单概述:inputFile通过split被逻辑切分为多个split文件,通过Record按行读取内容给map(用户自己实现的)进行处理,数据被map处理结束之后交给OutputCollector收集器,对其结果key进行分区(默认使用hash分区),然后写入buffer,每个map task都有一个内存缓冲区,存储着map的输出结果,当缓冲区快满的时候需要将缓冲...原创 2019-08-26 20:03:28 · 108 阅读 · 0 评论 -
Hadoop生态圈之Kudu(一)
Apache Kudu Apache Kudu 是由 Cloudera 开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力。它是一个融合 HDFS 和 HBase 的功能的新组件,具备介于两者之间的新存储组件。 Kudu 支持水平扩展,并且与 Cloudera Impala 和 Apache Spark 等当前流行的大数据查询和分析工具结合紧密...原创 2019-09-16 10:56:39 · 1236 阅读 · 0 评论