自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 安装tomcat时 遇到 Failed to install tomcat6 Service 问题解决办法

在安装tomcat时,出现了 Failed to install tomcat6 Service的报错弹框。如下图所示:可能出现问题的原因:在卸载时只删除了tomcat所在目录,并未删除tomcat服务。解决办法:1.打开cmd 输入sc delete tomcat8(你的tomcat版本)                 2.在运行框输入 regedit 来

2020-05-11 11:01:03 1104

原创 Azkaban介绍及简单使用

一、是什么?          各任务之间存在时间的先后及依赖关系,为了更好的组织复杂的执行,需要工作流调度系统来完成这样的作业。Azkaban是一个开源的任务调度系统,负责任务的调度运行。就是用于在一个工作流内以一个特定的顺序运行一组工作和流程。

2019-01-19 21:49:03 915

原创 Kafka

Kafka官网:http://kafka.apache.org/一、是什么       Apache Kafka是一个开源的消息系统。由scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 &amp

2019-01-19 17:45:21 201

原创 Flume简单介绍

一、是什么?      Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方(Socket数据包、文件、文件夹、kafka),用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(HDFS、hb

2018-12-23 15:37:28 307

原创 Hive基础(一)

Hive是什么?       Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成为一张数据库表,并提供类SQL的查询功能。可以将sql语句转化为MapReduce任务进行运行。Hive架构    &am

2018-12-19 15:35:03 6597

原创 Maptask和ReduceTask运行机制

第一步: 读取文件      FileInputFormat切片机制:        切片:是将数据进行逻辑上划分成多个split。将每一个split分配给一个对应的maptask处理。block是HDFS上物理上存储的存储的数据,切片是对

2018-12-13 17:43:39 975

原创 MapReduce计数器

MapReduce的计数器用来记录job的执行进度和状态的。它的作用可以理解为日志。主要功能,辅助我们统计一些数据。自定义计数器:通过context对象的getCounter方法,获取计数器。      Counter counter = context.getCounter(“MR_COUNT”, “MapRecordCounter”);...

2018-12-12 18:05:56 190

原创 MapReduce的排序以及序列化

Hadoop      Hadoop定义了一个Writable接口实现序列化。Wriable有一个子接口WritableComparable,既可以实现序列化,又可以根据key排序。我们在进行MR的序列化和排序时,需要实现这个接口。自定义排序的步骤: &amp

2018-12-12 16:42:09 282

原创 MapReduce的分区 (Partition)

在MapReduce中,数据进行map转换后,根据map后数据的key值进行散列派发。同一个分区的数据会发送到同一个Reduce中去处理。

2018-12-12 11:38:26 1958

原创 HDFS简单介绍

1.介绍HDFS 全称是 Hadoop Distribute File System,是Hadoop进行数据存储的核心组件,作为最底层的分布式存储服务存在。分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。2.特性:2.1master/savle架构master/savle架构。一般一个HDFS集群是由一个吻NameNode和一定数量的DataNode组成。Nam...

2018-12-10 14:56:50 405

原创 HDFS利用JavaAPI进行文件读写

1.cdh版jar包导入地址:https://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh_vd_cdh5_maven_repo.htmlhttps://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh_vd_cdh5_ma...

2018-12-10 14:45:41 2351

原创 HDFS架构及文件读写流程

HDFS是Hadoop的组件之一,是一个分布式文件系统, 文件系统是一个抽象类,其中有很多的子实现类,例如:hdfs,file:\\\(本地磁盘),ftp文件系统,webHdfs(可通过浏览器的界面进行文件操作).架构图...

2018-12-09 19:34:00 1260 3

转载 Hadoop的简单介绍

1. Hadoop的起源:Hadoop最早起源与Nutch。Nutch在构建大型的具有网页抓取、索引 、查询等功能的全网搜索引擎时,随着抓取网页数量的增加,遇到了严重的可扩展问题----如何解决大量网页的存储和索引问题。2003年、2004年谷歌发表的两篇论文:分布式文件系统(GFS),可用于存储海量网页的存储;分布式计算框架(MAPREDUCE),可用于处理海量网页的索引计算问题...

2018-12-07 17:18:03 437

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除