Hadoop教程
悟空非空也
《码城》官网创始人。处女座,热衷编程!
展开
-
1 初识Hadoop
什么是大数据随着近几年计算机技术和互联网的发展,“大数据”这个词被提及的越来越频繁。与此同时,大数据的快速发展也在无时无刻影响着我们的生活。例如,医疗方面,大数据能够帮助医生预测疾病;电商方面,大数据能够向顾客个性化推荐商品;交通方面,大数据会帮助人们选择最佳出行方案。Hadoop作为一个能够对大量数据进行分布式处理的软件框架,用户可以利用Hadoop生态体系开发和处理海量数据。由于Hadoop有可靠及高效的处理性能,使得它逐渐成为分析大数据的领先平台。高速发展的信息时代,新一轮科技革命和变革正在加速原创 2020-09-28 13:26:38 · 732 阅读 · 0 评论 -
2 Hadoop集群构建
虚拟机的安装https://www.bilibili.com/read/cv7450678Centos系统安装https://www.bilibili.com/read/cv7456817安装SecureCRT工具https://www.bilibili.com/read/cv7457324配置虚拟网络IPhttps://www.bilibili.com/read/cv7463717使用SecureCRT远程访问Centos系统https://www.bilibili.com/read/c原创 2020-09-28 13:38:22 · 771 阅读 · 0 评论 -
3 HDFS分布式文件系统
Hadoop的核心是HDFS和MapReduce。其中,HDFS是解决海量大数据文件存储的问题,是目前应用最广泛的分布式文件系统。HDFS的演变HDFS 源于 Google 在2003年10月份发表的GFS(Google File System)论文,接下来,我们从传统的文件系统入手,开始学习分布式文件系统,以及分布式文件系统是如何演变而来?HDFS的基本概念HDFS(Hadoop Distributed Filesystem)是一个易于扩展的分布式文件系统,运行在成百上千台低成本的机器上。它原创 2020-09-28 16:36:30 · 1270 阅读 · 0 评论 -
4 MapReduce分布式计算框架
MapReduce是Hadoop系统核心组件之一,它是一种可用于大数据并行处理的计算模型、框架和平台,主要解决海量数据的计算,是目前分布式计算模型中应用较为广泛的一种。MapReduce核心思想MapReduce的核心思想是“分而治之”。所谓“分而治之”就是把一个复杂的问题,按照一定的“分解”方法分为等价的规模较小的若干部分,然后逐个解决,分别找出各部分的结果,把各部分的结果组成整个问题的结果,这种思想来源于日常生活与工作时的经验,同样也完全适合技术领域。MapReduce作为一种分布式计算模型,它主原创 2020-09-28 16:39:45 · 936 阅读 · 0 评论 -
5 Zookeeper分布式协调服务
Zookeeper的简介Zookeeper是一个分布式协调服务的开源框架,它是由Google的Chubby开源实现。Zookeeper主要用来解决分布式集群中应用系统的一致性问题和单点故障问题,例如如何避免同时操作同一数据造成脏读的一致性问题等。Zookeeper的特征Zookeeper具有全局数据一致性、可靠性、顺序性、原子性以及实时性,可以说Zookeeper的其他特性都是为满足Zookeeper全局数据一致性这一特性。Zookeeper的集群角色Zookeeper集群是一个主从集群,它一般是原创 2020-09-30 17:56:31 · 706 阅读 · 0 评论 -
6 Hadoop2.0新特性
Hadoop2.0 改进与提升在Hadoop最初诞生时,在架构设计和应用性能方面存在很多不尽人意的地方,在后续发展过程中逐渐得到了改进和完善。相比Hadoop1.0版本,Hadoop2.0的优化改良主要体现在两个方面:一方面是Hadoop自身核心组件架构设计的改进,另一方面是Hadoop集群性能的改进,通过这些优化和提升,Hadoop可以支持更多的应用场景,提高资源利用率。Hadoop1.0版本与Hadoop2.0版本的区别Yarn体系结构YARN(Yet Another Resource Neg原创 2020-09-30 18:10:57 · 1135 阅读 · 0 评论 -
7 Hive数据仓库
数据仓库简介数据仓库是一个面向主题的、集成的、随时间变化的,但信息本身相对稳定的数据集合,它用于支持企业或组织的决策分析处理,这里对数据仓库的定义,指出了数据仓库的三个特点。数据仓库的结构数据仓库的结构是由数据源、数据存储及管理、OLAP服务器和前端工具四个部分组成。数据源是数据仓库的基础,即系统的数据来源,通常包含企业的各种内部信息和外部信息。数据存储及管理是整个数据仓库的核心,决定了对外部数据的表现形式,针对系统现有的数据,进行抽取、清理并有效集成,再按照主题进行组织。OLAP服务器对需要原创 2020-10-11 22:45:52 · 889 阅读 · 0 评论 -
8 Flume日志采集系统
目录Flume简介Flume运行机制Flume日志采集系统架构Flume系统要求Flume安装配置Flume入门使用Flume SourcesFlume ChannelsFlume SinksFlume负载均衡Flume故障转移Flume拦截器案例-日志采集Flume简介Flume原是Cloudera公司提供的一个高可用的、高可靠的、分布式海量日志采集、聚合和传输系统,而后纳入到了Apache旗下,作为一个顶级开源项目。Apache Flume不仅只限于日志数据的采集,由于Flume采集的数据源是可定制原创 2020-10-18 21:32:43 · 778 阅读 · 1 评论 -
9 Azkaban 工作流管理器
Azkaban 工作流管理器工作流管理器系统背景常用工作流管理器介绍Azkaban特点Azkaban组织结构Azkaban部署模式Azkaban资源准备Azkaban 安装配置Azkaban 安装部署和启动测试Azkaban 工作流相关概念案例-依赖任务调度管理案例-MapReduce任务调度管理案例-Hive脚本任务调度管理工作流管理器系统背景一个完整的数据分析系统通常都是由大量任务单元组成,例如shell脚本程序、java程序、mapreduce程序和hive脚本等。各任务单元之间存在时间先后及依赖原创 2020-10-26 09:19:29 · 1410 阅读 · 1 评论 -
10 Sqoop数据迁移
Sqoop数据迁移Sqoop 简介Sqoop 原理Sqoop 安装配置Sqoop 指令介绍MySql表数据导入HDFS增量导入MySql表数据导入HiveMysql 表数据子集导入Sqoop数据导出Sqoop 简介Sqoop是Apache的一款开源工具,Sqoop主要用于在Hadoop和关系数据库或大型机之间传输数据,可以使用Sqoop工具将数据从关系数据库管理系统导入(import)到Hadoop分布式文件系统中,或者将Hadoop中的数据转换导出(export)到关系数据库管理系统。Sqoop原创 2020-10-26 09:48:40 · 843 阅读 · 0 评论 -
11 综合项目-网站日志数据分析系统
系统背景介绍近年来,随着社会的不断发展,人们对于海量数据的挖掘和运用越来越重视,大数据的统计分析可以为企业决策者提供充实的依据。例如,通过对某网站日志数据统计分析,可以得出网站的日访问量,从而得出网站的欢迎程度;通过对移动APP的下载数据量进行统计分析,可得出应用程序的受欢迎程度,可通过不同维度进行更深层次的数据分析,为运营分析与推广决策提供可靠的数据依据。系统架构设计及效果预览将Nginx服务器所产生的日志文件通过Flume采集到HDFS中.根据原始日志文件及规定数据格式开发MapReduce原创 2020-11-03 15:06:27 · 3510 阅读 · 2 评论