大数据(2)--Hadoop

本文介绍了大数据的基础技术,如Flume、HDFS、MapReduce、Hive等,重点讲解了Hadoop的历史、作用及安装过程。详细讨论了HDFS的组件如NameNode、DataNode和Block,并探讨了Hadoop的优缺点。此外,还涵盖了HDFS的Shell操作和MapReduce、Yarn的概念。
摘要由CSDN通过智能技术生成

1.初识大数据

1.1 大数据相关技术

Flume:数据的收集聚集加载

Hadoop.HDFS:数据的存储

MapReduce、Hive、SparkSql:数据的离线处理

Kafka、Storm、SparkStreaming:数据的实时处理

Hbase:数据库

Sqoop:HDFS和关系型数据库桥梁

1.2 日志流量分析系统

1.2.1 项目设计

项目通用,可以对接任何有相应需求的项目
在这里插入图片描述

1.2.2 日志的捕获

JS埋点:将参数系数组织起来发送到日志收集系统。(传统后台埋点,影响后台维护和运行;script标签内发送影响前端逻辑,最后选择以img标签实现埋点信息的发送)

Log4j:收集日志,在打印同时,输出到flume中。

Flume:数据的收集聚集加载

1.2.3 离线分析

HDFS(Hadoop的一部分):海量数据的存储

Hive(底层基于Hadoop):海量离线数据的处理

1.2.4 实时分析

Storm:流式数据处理(速度最快)

Kafka:消息队列,削峰平谷

1.3 系统搭建

独立的服务器,逻辑简单,用Servlet处理请求参数,进行字符串拼接,并通过log4j输出到控制台和flume中

2.Hadoop

2.1 Hadoop概述

Hadoop是大数据领域中非常重要的基础技术,他是一个海量数据存储、处理系统,也是一个生态圈(HDFS,MapReduce,Hive,Hbase。。。。Spark底层也有Hadoop)

2.1.1 历史

Google:搜索引擎。收集互联网上的所有数据,存储数据,处理数据,提供给用户。
Google搜索引擎相关技术非常成熟,但是并没有开源,不过,在2004年先后发表了两篇论文:《Google File System》(GFS)、《MapReduce》阐述了Google如何将海量数据进行存储和处理。2006年发表了《BigTable》启发了无数的NoSql数据库。

Doug Cutting(狗哥):Lucene、Nutch(搜索引擎)

Hadoop(Java开发)

HDFS(Hadoop distributed file system):大数据存储

MapReduce:大数据处理

2.1.2 作用

Hadoop最初用作Nutch底层的海量数据存储和处理,后来人们发现他也非常适合大数据场景下的数据存储和处理,主要用作海量离线数据的存储和处理。

2.2 Hadoop的安装

2.2.1 Hadoop版本介绍

Hadoop1.0(Apache)最初版:HDFS、MapReduce

Hadoop2.0:HDFS、MapReduce、Yarn(2.7.1)

Hadoop3.0:2017年12月发布,目前还不是稳定版本。
在这里插入图片描述

2.2.2 Hadoop 的安装有三种方式

单机模式:解压就能运行,但是只支持MapReduce的测试,不支持HDFS,不用。

伪分布式模式:单机通过多进程模拟集群方式安装,支持Hadoop所有功能。学习测试用

完全分布式模式:集群方式安装,支持高可用,进阶学习。

2.2.3 Hadoop伪分布式安装

需要环境:
JDK,JAVA_HOME,配置hosts,hostname,关闭防火墙,配置免密登录。

安装在hadoop01节点上。
1.创建目录
mkdir hadoop

2.上传安装包并解压
tar -xvf 安装包

3.修改配置文件
1.修改 hadoop-env.sh
通过vim打开
vim /usr/local/src/hadoop/hadoop-2.7.1/etc/hadoop/hadoop-env.sh主要是修改java_home的路径

在hadoop-env.sh的第25行,把export JAVA_HOME=${JAVA_HOME}修改成具体的路径

在33行,修改HADOOP_CONF_DIR为具体的路径
在这里插入图片描述
重新加载使修改生效
source hadoop-env.sh

2.修改 core-site.xml
通过vim打开
vim [hadoop]/etc/hadoop/core-site.xml

增加namenode配置、文件存储位置配置:粘贴<configuration>标签内的内容

<configuration>
<property<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值