- 博客(13)
- 收藏
- 关注
原创 安装tomcat时 遇到 Failed to install tomcat6 Service 问题解决办法
在安装tomcat时,出现了 Failed to install tomcat6 Service的报错弹框。如下图所示:可能出现问题的原因:在卸载时只删除了tomcat所在目录,并未删除tomcat服务。解决办法:1.打开cmd 输入sc delete tomcat8(你的tomcat版本) 2.在运行框输入 regedit 来
2020-05-11 11:01:03 1152
原创 Azkaban介绍及简单使用
一、是什么?          各任务之间存在时间的先后及依赖关系,为了更好的组织复杂的执行,需要工作流调度系统来完成这样的作业。Azkaban是一个开源的任务调度系统,负责任务的调度运行。就是用于在一个工作流内以一个特定的顺序运行一组工作和流程。
2019-01-19 21:49:03 981
原创 Kafka
Kafka官网:http://kafka.apache.org/一、是什么       Apache Kafka是一个开源的消息系统。由scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 &amp
2019-01-19 17:45:21 244
原创 Flume简单介绍
一、是什么?      Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方(Socket数据包、文件、文件夹、kafka),用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(HDFS、hb
2018-12-23 15:37:28 353
原创 Hive基础(一)
Hive是什么?       Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成为一张数据库表,并提供类SQL的查询功能。可以将sql语句转化为MapReduce任务进行运行。Hive架构    &am
2018-12-19 15:35:03 6646
原创 Maptask和ReduceTask运行机制
第一步: 读取文件      FileInputFormat切片机制:        切片:是将数据进行逻辑上划分成多个split。将每一个split分配给一个对应的maptask处理。block是HDFS上物理上存储的存储的数据,切片是对
2018-12-13 17:43:39 994
原创 MapReduce计数器
MapReduce的计数器用来记录job的执行进度和状态的。它的作用可以理解为日志。主要功能,辅助我们统计一些数据。自定义计数器:通过context对象的getCounter方法,获取计数器。 Counter counter = context.getCounter(“MR_COUNT”, “MapRecordCounter”);...
2018-12-12 18:05:56 208
原创 MapReduce的排序以及序列化
Hadoop      Hadoop定义了一个Writable接口实现序列化。Wriable有一个子接口WritableComparable,既可以实现序列化,又可以根据key排序。我们在进行MR的序列化和排序时,需要实现这个接口。自定义排序的步骤: &
2018-12-12 16:42:09 297
原创 MapReduce的分区 (Partition)
在MapReduce中,数据进行map转换后,根据map后数据的key值进行散列派发。同一个分区的数据会发送到同一个Reduce中去处理。
2018-12-12 11:38:26 2023
原创 HDFS简单介绍
1.介绍HDFS 全称是 Hadoop Distribute File System,是Hadoop进行数据存储的核心组件,作为最底层的分布式存储服务存在。分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。2.特性:2.1master/savle架构master/savle架构。一般一个HDFS集群是由一个吻NameNode和一定数量的DataNode组成。Nam...
2018-12-10 14:56:50 449
原创 HDFS利用JavaAPI进行文件读写
1.cdh版jar包导入地址:https://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh_vd_cdh5_maven_repo.htmlhttps://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh_vd_cdh5_ma...
2018-12-10 14:45:41 2404
原创 HDFS架构及文件读写流程
HDFS是Hadoop的组件之一,是一个分布式文件系统, 文件系统是一个抽象类,其中有很多的子实现类,例如:hdfs,file:\\\(本地磁盘),ftp文件系统,webHdfs(可通过浏览器的界面进行文件操作).架构图...
2018-12-09 19:34:00 1339 3
转载 Hadoop的简单介绍
1. Hadoop的起源:Hadoop最早起源与Nutch。Nutch在构建大型的具有网页抓取、索引 、查询等功能的全网搜索引擎时,随着抓取网页数量的增加,遇到了严重的可扩展问题----如何解决大量网页的存储和索引问题。2003年、2004年谷歌发表的两篇论文:分布式文件系统(GFS),可用于存储海量网页的存储;分布式计算框架(MAPREDUCE),可用于处理海量网页的索引计算问题...
2018-12-07 17:18:03 485
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人