大数据
小埋璐璐
这个作者很懒,什么都没留下…
展开
-
Azkaban介绍
工作流工作流(Workflow),指“业务过程的部分或整体在计算机应用环境下的自动化”。是对工作流程及其各操作步骤之间业务规则的抽象、概括描述。工作流解决的主要问题是:为了实现某个业务目标,利用计算机软件在多个参与者之间按某种预定规则自动传递文档、信息或者任务。一个完整的数据分析系统通常都是由多个前后依赖的模块组合构成的:数据采集、数据预处理、数据分析、数据展示等。各个模块单元之间存在时间先后依赖关系,且存在着周期性重复。为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行。工作流调原创 2020-12-14 10:52:53 · 402 阅读 · 0 评论 -
map端join算法实现
map端join算法实现1、原理阐述适用于关联表中有小表的情形;可以将小表分发到所有的map节点,这样,map节点就可以在本地对自己所读到的大表数据进行join并输出最终结果,可以大大提高join操作的并发度,加快处理速度2、实现示例–先在mapper类中预先定义好小表,进行join–引入实际场景中的解决方案:一次加载数据库或者用第一步:定义mapJoinpublic class ...原创 2019-11-18 21:40:19 · 402 阅读 · 0 评论 -
reduce端join与map端join算法实现
reduce端join与map端join算法实现**1、reduce端join算法实现**1、需求:订单数据表t_order:商品信息表t_product假如数据量巨大,两表的数据是以文件的形式存储在HDFS中,需要用mapreduce程序来实现一下SQL查询运算:2、实现机制:通过将关联的条件作为map输出的key,将两表满足join条件的数据并携带数据所来源的文件信息,...原创 2019-11-18 21:32:47 · 229 阅读 · 0 评论 -
shuffle阶段数据的压缩机制
shuffle阶段数据的压缩机制在shuffle阶段,可以看到数据通过大量的拷贝,从map阶段输出的数据,都要通过网络拷贝,发送到reduce阶段,这一过程中,涉及到大量的网络IO,如果数据能够进行压缩,那么数据的发送量就会少得多,那么如何配置hadoop的文件压缩呢,以及hadoop当中的文件压缩支持哪些压缩算法呢??接下来一一细看MapReduce的执行流程为什么要配置压缩:MapRe...原创 2019-11-18 21:24:55 · 292 阅读 · 0 评论 -
MapReduce过程全程
第1步:InputFormatInputFormat 到hdfs上读取数据将数据传给Split第2步:Split//设置读取数据的路径 TextInputFormat.addInputPath(job,new Path(“C:\bbb.txt”)); //3、设置Map job.setMapperClass(WordCountMap.class); //设置map输出的类型 job.set...原创 2019-11-14 20:28:38 · 137 阅读 · 0 评论 -
WARN - PriviledgedActionException as:superè (auth:SIMPLE) cause:0: No such file or directory
WARN - PriviledgedActionException as:superè (auth:SIMPLE) cause:0: No such file or directory解决方法在runner类添加 conf.set(“hadoop.tmp.dir”,“E:\tmp\hadoop-abc”);代码如下:public class WordCountRunner {publ...原创 2019-11-12 11:51:46 · 250 阅读 · 1 评论 -
hadoop无法自动生成tmp文件
![在这里插入图片描述](https://img-blog.csdnimg.cn/20191112112657119.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L01hbHVf,size_16,color_FFFFFF,t_70](htt...原创 2019-11-12 11:32:14 · 2969 阅读 · 0 评论 -
namenode故障修复
namenode故障恢复目标:掌握nameNode故障后如何恢复secondaryNamenode对namenode当中的fsimage和edits进行合并时,每次都会先将namenode的fsimage与edits文件拷贝一份过来,所以fsimage与edits文件在secondarNamendoe当中也会保存有一份,如果namenode的fsimage与edits文件损坏,那么我们可以将s...原创 2019-11-06 21:14:33 · 277 阅读 · 3 评论 -
HDFS新增节点与删除节点
HDFS新增节点与删除节点服役新数据节点目标:掌握HDFS新添加节点到集群的步骤准备新节点第一步:复制一台新的虚拟机出来将我们纯净的虚拟机复制一台出来,作为我们新的节点第二步:修改mac地址以及IP地址修改mac地址命令vim /etc/udev/rules.d/70-persistent-net.rules修改ip地址命令vim /etc/sysconfig/network-...原创 2019-11-06 20:36:44 · 836 阅读 · 0 评论 -
HDFS特性与缺点
HDFS 特性1.海量数据储存:hdfs可以横向扩展,储存的文件可以支持pb级别的数据2.高容错性:节点丢失,系统依然可用,数据保存多个副本,副本丢失后自动恢复可构建在廉价(与大小型机比)的机器上,实现线性扩展(随着节点的增加,集群的储存能力,计算能力随之增加)3.大文件存储:dfs采用数据块的方式存储数据,将一个大文件拆分为小文件,分布储存HDFS缺点1.不能做到低延迟数据访问:hd...原创 2019-11-05 15:16:12 · 286 阅读 · 0 评论 -
HDFS的写入和读取流程
HDFS的写入流程1.client 发起文件上传请求,通过rpc与namenode建立通讯,namenode检查目标文件是否已经存在,父目录是否存在,返回是否可以上传2.client 请求第一个block该传到哪些datanode服务器上3.namenode根据配置文件中指定的备份数量及机架感知原理进行文件分配,返回可用的DataNode的地址如:A,B,C;4、 client请求3台...原创 2019-11-05 09:24:11 · 325 阅读 · 0 评论 -
MapReduce的jobHistory介绍
MapReduce的jobHistory介绍目标:了解jobHistory的配置与作用我们可以通过Hadoop jar的命令来实现我们的程序jar包的运行,关于运行的日志,我们一般都需要通过启动一个服务来进行查看,就是我们的JobHistoryServer,我们可以启动一个进程,专门用于查看我们的任务提交的日志第一步:node01修改mapred-site.xmlnode01服务器修改m...原创 2019-11-04 09:34:58 · 796 阅读 · 4 评论 -
CDH 分布式环境搭建
CDH 分布式环境搭建目标:搭建基于CDH的分布式集群安装环境服务部署规划第一步:上传压缩包并解压将我们重新编译之后支持snappy压缩的Hadoop包上传到第一台服务器并解压第一台机器执行以下命令cd /export/softwares/mv hadoop-2.6.0-cdh5.14.0-自己编译后的版本.tar.gz hadoop-2.6.0-cdh5.14.0.tar.gz...原创 2019-11-04 09:22:03 · 282 阅读 · 0 评论 -
CDH版本Hadoop重新编译
CDH版本Hadoop重新编译**目标:重新编译CDH版本的Hadoop**1. 准备编译环境linux环境准备一台linux环境,内存4G或以上,硬盘40G或以上,我们这里使用的是Centos6.9 64位的操作系统(注意:一定要使用64位的操作系统)2.虚拟机联网,关闭防火墙,关闭selinux关闭防火墙命令:service iptables stopchkconfig...原创 2019-11-04 09:11:39 · 302 阅读 · 0 评论 -
大数据介绍及集群安装
大数据介绍及集群安装第一部分 《大数据概述》传统数据如何处理?什么是大数据?传统数据与大数据的对比大数据的特点?大数据前/后服务器系统安装部署区别是什么?。大数据生态系统以及技术组件介绍大数据技术为什么快?什么是分布式存储?分布式计算?Hadoop生态系统的组件传统与大数据的对比第二部分《Hadoop详解》Hadoop的介绍以及发展历史Hadoop的历史版本介绍Had...原创 2019-10-24 17:22:19 · 658 阅读 · 2 评论 -
大数据简介 随堂笔记
什么是大数据? 字面意思理解:大量的数据,海量的数据 数据集的大小已经远远超过了现有普通数据库软件和工具的处理能力的数据大数据有什么特点? 海量化 数据量大(多) 多样化 结构化数据,半结构化数据,和非结构化数据 快速化 数据的增长速度快 高价值 海量数据价值高大数据能做什么? 1、海量数据快速查询 2、海量数据的存储(数据量大,单个大文...原创 2019-10-23 19:56:32 · 194 阅读 · 0 评论