人间怪物-CSDN博客

原创安装tomcat时遇到 Failed to install tomcat6 Service 问题解决办法

在安装tomcat时，出现了 Failed to install tomcat6 Service的报错弹框。如下图所示：可能出现问题的原因：在卸载时只删除了tomcat所在目录，并未删除tomcat服务。解决办法：1.打开cmd 输入sc delete tomcat8（你的tomcat版本） 2.在运行框输入 regedit 来

2020-05-11 11:01:03 1152

原创 Azkaban介绍及简单使用

一、是什么？&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;各任务之间存在时间的先后及依赖关系，为了更好的组织复杂的执行，需要工作流调度系统来完成这样的作业。Azkaban是一个开源的任务调度系统，负责任务的调度运行。就是用于在一个工作流内以一个特定的顺序运行一组工作和流程。

2019-01-19 21:49:03 981

原创 Kafka

Kafka官网：http://kafka.apache.org/一、是什么&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;Apache Kafka是一个开源的消息系统。由scala写成。是由Apache软件基金会开发的一个开源消息系统项目。&amp;nbsp;&amp

2019-01-19 17:45:21 244

一、是什么？&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方（Socket数据包、文件、文件夹、kafka），用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（HDFS、hb

2018-12-23 15:37:28 353

原创 Hive基础（一）

Hive是什么？&amp;amp;nbsp; &amp;amp;nbsp; &amp;amp;nbsp; &amp;amp;nbsp;Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射成为一张数据库表，并提供类SQL的查询功能。可以将sql语句转化为MapReduce任务进行运行。Hive架构&amp;amp;nbsp; &amp;amp;nbsp; &amp;am

2018-12-19 15:35:03 6646

原创 Maptask和ReduceTask运行机制

第一步：读取文件&nbsp;&nbsp; &nbsp;&nbsp; FileInputFormat切片机制：&nbsp;&nbsp; &nbsp;&nbsp; &nbsp;&nbsp;切片：是将数据进行逻辑上划分成多个split。将每一个split分配给一个对应的maptask处理。block是HDFS上物理上存储的存储的数据，切片是对

2018-12-13 17:43:39 994

原创 MapReduce计数器

MapReduce的计数器用来记录job的执行进度和状态的。它的作用可以理解为日志。主要功能，辅助我们统计一些数据。自定义计数器：通过context对象的getCounter方法，获取计数器。      Counter counter = context.getCounter(“MR_COUNT”, “MapRecordCounter”);...

2018-12-12 18:05:56 208

原创 MapReduce的排序以及序列化

Hadoop&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;Hadoop定义了一个Writable接口实现序列化。Wriable有一个子接口WritableComparable，既可以实现序列化，又可以根据key排序。我们在进行MR的序列化和排序时，需要实现这个接口。自定义排序的步骤：&amp;nbsp;&amp

2018-12-12 16:42:09 297

原创 MapReduce的分区（Partition）

在MapReduce中，数据进行map转换后，根据map后数据的key值进行散列派发。同一个分区的数据会发送到同一个Reduce中去处理。

2018-12-12 11:38:26 2023

原创 HDFS简单介绍

1.介绍HDFS 全称是 Hadoop Distribute File System，是Hadoop进行数据存储的核心组件，作为最底层的分布式存储服务存在。分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。2.特性：2.1master/savle架构master/savle架构。一般一个HDFS集群是由一个吻NameNode和一定数量的DataNode组成。Nam...

2018-12-10 14:56:50 449

原创 HDFS利用JavaAPI进行文件读写

1.cdh版jar包导入地址:https://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh_vd_cdh5_maven_repo.htmlhttps://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh_vd_cdh5_ma...

2018-12-10 14:45:41 2404

原创 HDFS架构及文件读写流程

HDFS是Hadoop的组件之一,是一个分布式文件系统, 文件系统是一个抽象类,其中有很多的子实现类,例如:hdfs,file:\\\(本地磁盘),ftp文件系统,webHdfs(可通过浏览器的界面进行文件操作).架构图...

2018-12-09 19:34:00 1339 3

转载 Hadoop的简单介绍

1. Hadoop的起源：Hadoop最早起源与Nutch。Nutch在构建大型的具有网页抓取、索引、查询等功能的全网搜索引擎时，随着抓取网页数量的增加，遇到了严重的可扩展问题----如何解决大量网页的存储和索引问题。2003年、2004年谷歌发表的两篇论文：分布式文件系统（GFS），可用于存储海量网页的存储；分布式计算框架（MAPREDUCE），可用于处理海量网页的索引计算问题...

2018-12-07 17:18:03 485

qq_41975699的博客