hadoop02--大数据简介&hadoop简介和伪分布式、完全分布式集群搭建

二:大数据简介

数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的的原始素材。
数据可以是连续的值,比如声音、图像,称为模拟数据。也可以是离散的,如符号、文字,称为数字数据。

数据的分类

从结构上可以分为
- 结构化数据:如:二维表
- 半结构化数据:如:xml、html、css
- 非结构数据:如:图片、音频、视频等

数据的来源

  • 企业自己的业务数据
  • 网上爬虫爬来的数据
  • 从第三方处买数据

数据的处理

(1)字段缺失处理
(2)敏感数据脱敏

大数据的特点

数据量大
种类多
速度快
价值高

价值密度低,但是整体价值高

大数据的几个概念

集群

很多机器共同完成一个任务,我们将这多台机器叫做集群。每一个机器叫做节点。

分布式

一个任务被分成多个小人物。每个机器只负责一个小任务,这个任务的执行就是分布式执行的。

分布式数据库:一个数据库被分成多个部分分别存储在多个机器上
分布式文件系统:一个文件被划分为多个文件,分布式存储在不同的节点上
分布式计算系统:一计算任务被分成多个小任务,在多台机器上执行。每台机器只负责一部分的执行
负载均衡

同一个集群中的每个节点分担的任务相当,这与机器的硬件配置有关,无法做到绝对的负载均衡。

三:Hadoop

背景来源

谷歌公司为自己的搜索引擎实现了海量数据存储和计算,但是并没有开源。2003年以GFS(海量数据的计算问题)-MAPREDUCE(海量数据的计算问题)-BIGTABLE(快速查询的问题)三篇论文的形式发表。doug cutting发现google的三篇论文,将这三篇论文用java实现了一遍。分别用HDFS ,MAPREDUCE,hbase来海量解决存储、计算、查询问题。之后他贡献给apache基金会,doug cutting本人也被挖到yahoo,并为他组织团队团队专注于hadoop的开发。谁也不曾想到,当年他以小孩的大象玩偶来命名的Hadoop,不仅开启了大数据时代,更成为孕育大数据技术的摇篮。

Hadoop是什么

提供了高可靠(可以不间断地对外提供服务),高扩展性(横向扩展能力好)的分布式计算的开源软件。

hadoop中将硬件错误看成一种常态。硬件故障是一个常有的问题。

hadoop的模块

hadoop 1.0 :hdfs+mapreduce

hadoop2.0:
软件层面上:
- common:工具类模块,为以下再三模块提供公共工具,封装了rpc通信模块
- hdfs:hadoop的分布式数据存储模块。多台机器共同存储。主从架构存储:
- 主:namenode,是存储架构的主节点。主要用于存储元数据(记录数据的数据)的信息。
- 从:datanode,真实存储数据的节点。
- secondarynamenode:namenode的冷备份(复制)节点,但是替代不了namenode。存储一份元数据信息,帮助namenode的恢复
- mapreduce:分布式数据计算
- map:分
- reduce:合
- 学习编程,流程
- yarn:分布式资源调度框架,负责为每一个计算任务分配资源
- 主从架构:
- 主:resourcemanager,负责整个集群的资源调度,不负责执行
- nodemanager,负责真正的程序执行

  • 正常的集群启动:
    • namenode
    • datanode
    • secondarynamenode
    • resourcemanager
    • nodemanager
  • hadoop
    • 狭义:
    • 广义:hadoop生态圈

hadoop的安装

单机模型

伪分布式搭建—-准备工作

1)修改ip

vi /etc/sysconfig/network-scripts/ifcfg-eth0

2)主机名

vi /etc/sysconfig/network

3)映射

vi /etc/hosts

4)关闭防防火墙和selinux
  • service iptables stop

  • vi /etc/selinux/config

SELINUX=disable

5)配置普通用户 赋予sudolers权限 root权限:vi /etc/sudoers

hadoop ALL=(ALL) ALL

6)免密登录:这里使用普通用户
  • ssh-keygen
  • ssh-copy-id 目标机器ip
  • 验证:ssh 目标机器ip

当前用户的秘钥存放地:/home/hadoop/.ssh

7)将系统启动级别改为3
            # Default runlevel. The runlevels used are:
            #   0 - halt (Do NOT set initdefault to this)    关机    init 0
            #   1 - Single user mode       单用户
            #   2 - Multiuser, without NFS (The same as 3, if you do not have networking)    
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值