伪分布式

企业大数据来源:
    1、企业内部
        ** 日志文件(apache、nginx、tomcat、resin、jboss..)
        ** 数据库(oracle、mysql、DB2)
        ** 用户行为数据
    2、企业外部
        ** 爬虫(python)
        ** 第三方购买(上海数据交易中心)    


大数据Hadoop起源:
    ** hadoop起源于Google
    ** 作者:Doug Cutting(现就职于Cloudera公司)
    ** Google爬虫 --> 访问互联网的网站 -->采集网页的内容
       --> 存储到自己的平台(数据量巨大)--> 当用户搜索框
       在里面搜索关键词的时候 --> Google平台快速计算找出
       相关网页
    ** Lucene和Nutch
    ** 2006年3月份,Hadoop正式发布,并成为apache顶级项目
    
    
Google的三篇论文:
    ** GFS(存储)     
    ** mapreduce(计算模型)
    ** Bigtable

    
Hadoop发行版本:
    ** apache          hadoop.apache.org
    ** Cloudera公司  商业公司    --CDH
                培训、技术支持、功能开发
                
hadoop软件版本
    ** 0.2+
    ** 1.0+
    ** 2.0+ (课程里面用的是2.5)                 


Hadoop功能
    ** 数据存储
    ** 数据分析模型

Hadoop四个模块
    ** common
        ** 为其他Hadoop模块提供基础设施
    ** HDFS
        ** 多台服务器组成
        ** 高可靠、高吞吐量的分布式文件系统
    ** MapReduce
        ** 一个分布式的离线并行计算框架
        ** 只有相关任务启动以后才会有对应的线程产生
        ** 分为两步:map和reduce
            map: 运行在多台服务器里面,进行计算
            reduce:默认运行在一台服务器,对map的计算结果进行合并
            ** 分而治之(MapReduce的思想,也可以说Hadoop思想)
    ** YARN
        ** Hadoop的操作系统
        ** 任务调度与资源管理
        ** hadoop2.x以后才产生

HDFS组成:
    ** 启动Namenode和Datanode进程
    ** 一台Namenode服务器
        ** 存储元数据
    ** 多台Datanode服务器
        ** 存储真实数据(数据块)

Yarn组成:
    ** 启动resourcemanager和nodemanager进程
    ** 一台resourcemanager服务器
        ** 任务和资源总的管理者
    ** 多台nodemanager服务器
        ** 运行具体的任务[map task \ reduce task]

注意:
** HDFS和yarn是不同功能的模块,可以说完全没有关系
** 企业里面可以把两个模块的进程启动在同一台服务器


hadoop生态圈
    ** 不同的框架是由不同的公司或者团队开源出来的。
    ** hadoop
    ** Hive  数据仓库工具
    ** sqoop
    ** flume
    ** oozie  
    ** Hue
    ** HBase 列式数据库
    ...

服务(进程)            ---    端口(客户端访问入口)    
tomcat                ---    8080
apache、nginx、        ---    80
mysql                ---    3306
namenode            ---    8020

** 一个服务启动以后,默认都会监听一个端口
** 一个端口只能被一个服务监听
    
====伪分布式环境=============================================

一、系统环境准备工作:

1、把网卡IP设置成静态(NAT模式)
** 首先查看网卡IP
$ ip a 或$ ifconfig (network interfaces configuring)网络接口配置
** 然后配置VPN(Virtual Private Network 虚拟专用网络)
a. 右下角选择"配置VPN"
b. 选择eth0,点击编辑
c. 在IPv4页面设置
   方法:手动  
   添加:地址192.168.122.128 掩码255.255.255.0 网关192.168.122.2
   DNS服务器:192.168.122.2, 202.96.209.5
   勾选需要IPv4
#202.96.209.5(或133)是上海电信DNS服务器(baidu),8.8.8.8是Google服务器

***配置Notepad的NppFTP来修改文件,协议必需要选择SFTP***
***注意:文件必需在Linux里建,可以在Windows里改

编辑文件(root)
# vi /etc/sysconfig/network-scripts/ifcfg-eth0
#注意:VPN修改后,文件名会变化,如:ifcfg-Auto_eth0
ONBOOT=yes           # 把网卡设置成开机启动
BOOTPROTO=static   # 把DHCP改为static,Linux严格区分大小写,一定要注意
IPADDR=192.168.122.128
NETMASK=255.255.255.0
GATEWAY=192.168.122.2   #前三位相同,末位设置为2,是NAT模式特有的做法

设置好后,重启网卡:
# ifup eth0 (若是有问题,将文件中以IPV6开头的行删除)
#Linux中eth0,eth1,eth2分别表示网卡一,网卡二,网卡三 ……

#/etc/sysconfig/network-scripts/ifcfg-eth0文件内容参照如下:
#若是有问题就将IPV6开头的删除
DEVICE="eth0"
BOOTPROTO=static
IPV6INIT="yes"
NM_CONTROLLED="yes"
ONBOOT="yes"
TYPE="Ethernet"
UUID="0faffc60-5eda-421f-9cb9-c90cea321005"
HWADDR=00:0C:29:3D:37:60
IPADDR=192.168.122.128
NETMASK=255.255.255.0
PREFIX=24
GATEWAY=192.168.122.2
DNS1=192.168.122.2
DNS2=202.96.209.5
DEFROUTE=yes
IPV4_FAILURE_FATAL=yes
IPV6_AUTOCONF=yes
IPV6_DEFROUTE=yes
IPV6_PEERDNS=yes
IPV6_PEERROUTES=yes
IPV6_FAILURE_FATAL=no
NAME="System eth0"
LAST_CONNECT=1477989881

2、设置DNS
# vi /etc/sysconfig/network-scripts/ifcfg-eth0 (同一个文件)
DNS1=192.168.122.2    #第一个DNS设置成跟网关地址一样,NAT模式比较特殊
DNS2=202.96.209.5   

# service network restart  #重启network服务,即网络服务

3、修改主机名
    ** 集群内部的主机名通常都会使用统一的命名格式
    ** 注意:hadoop里主机名不能使用下划线
    blue01.mydomain
    blue02.mydomain
    blue03.mydomain
    
    # vi /etc/sysconfig/network
    HOSTNAME=blue01.mydomain
    
    查看主机名:
    # hostname

4、关闭Linux防火墙和selinux
    ** 默认情况下,防火墙只开启了22号端口,会影响集群通讯
    # service iptables status
    # service iptables stop   # 关闭防火墙服务
    # chkconfig iptables off  # 设置为开机不启动
    # chkconfig --list        # 列出所有的系统服务
    # chkconfig --list | grep ip
    PS:
    等级代号指定该系统服务要在哪一个执行等级中开启或关闭。
    等级0表示:表示关机,系统默认运行级别不能设置为0,否则不能正常启动、关闭。
    等级1表示:单用户模式
    等级2表示:无网络连接的多用户命令行模式
    等级3表示:有网络连接的多用户命令行模式
    等级4表示:等级4保留,一般不用,可以处理一些特殊情况。如笔记本电池用尽时,可以切换到这个模式来做一些设置。
    等级5表示:带图形界面的多用户模式
    等级6表示:重新启动

    # 关闭selinux,是一个安全子系统,它能控制程序只能访问特定文件
    # vi /etc/sysconfig/selinux(注意:此文件在notepad中不可见)
    SELINUX=disabled   # 把enforcing改成disabled
    
5、添加主机名映射
    ** 后面需要多次使用主机名
    # vi /etc/hosts
    在最后一行添加:192.168.122.128    blue01.mydomain

6、创建普通用户
    ** 后期所有操作都尽量使用普通用户来进行
    # useradd tom #创建用户tom
    # passwd tom  #设置密码
    # echo blue | passwd --stdin tom  #--stdin接收系统输入数据

PS:
Xshell:工具--选项--键盘和鼠标
右键粘贴功能: 修改“右键按钮”为:paste the clipboard contents
选中复制功能:勾选“将选中的内容自动复制到剪贴板”

----JDK-----------------------------------------------

#除非必需,尽量使用普通用户来操作
ssh(Secure Shell)是目前较可靠,专为远程登录会话和其他网络服务提供安全性的协议。
Xshell登录:ssh tom@192.168.122.128

** 安装JDK
$ su -                  # tom在/opt内无创建目录的权限
# mkdir /opt/modules    # 用于软件安装目录
# mkdir /opt/softwares    # 用于软件下载目录

# chown tom:tom /opt/modules/  # 授权用户:组
# chown tom:tom /opt/softwares/

# su - tom
$ tar zxvf jdk-7u67-linux-x64.tar.gz -C /opt/modules/    --选项-C 表示解压的目标路径

# 设置JAVA_HOME和PATH
# vi /etc/profile    (root用户)
JAVA_HOME=/opt/modules/jdk1.7.0_67
export PATH=$PATH:$JAVA_HOME/bin

PS:
***卸载其他软件捆绑安装的JDK,若是没有则无需卸载
# rpm -qa  #查看所有已安装的rpm包
# rpm -qa | grep -i java    --'-i':忽略大小写
# 卸载rpm软件包
# rpm -e --nodeps java-1.7.0-openjdk-1.7.0.9-2.3.4.1.el6_3.x86_64

====Hadoop安装配置============================================

$ tar zxvf hadoop-2.5.0.tar.gz -C /opt/modules/

#设置PATH(可选)
# vi /etc/profile
export HADOOP_INSTALL=/opt/modules/hadoop-2.5.0
export PATH=$PATH:$HADOOP_INSTALL/bin:$HADOOP_INSTALL/sbin

#官方参考资料:
# http://hadoop.apache.org/ -- Documentation -- Release 2.5.2
# General -- Single Node Setup

---------------------------

配置HDFS(Hadoop分布式文件系统)
    ** hdfs有两个namenode(主和从),datanode(多个)
    ** namenode维护元数据,如:文件到块的对应关系、块到节点的对应关系,以及用户对文件的操作
    ** datanode用来存储和管理本节点数据
    
a)
# 在Hadoop安装目录下的/etc/hadoop里,修改hadoop-env.sh文件里的JAVA_HOME
export JAVA_HOME=/opt/modules/jdk1.7.0_67

b)
修改core-site.xml文件:(参考core-default.xml)
<configuration>
    <!--NameNode的访问URI,也可以写为IP,8020为默认端口,可改-->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://blue01.mydomain:8020</value>
    </property>
    <!--临时数据目录,用来存放数据,格式化时会自动生成-->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/modules/hadoop-2.5.0/data</value>
    </property>
</configuration>

c)
修改hdfs-site.xml文件:(参考hdfs-default.xml)
<configuration>
    <!--Block的副本数,伪分布式要改为1-->
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

格式化namenode:
    # 会自动生成data目录
    $ bin/hdfs namenode -format  

启动守护进程(服务):
    # cmd文件是给Windows用的,可以删除
    $ sbin/hadoop-daemon.sh start namenode   #stop用来停止守护进程
    $ sbin/hadoop-daemon.sh start datanode
    # jps        --Process Status查看java进程,数字为PID(Process id)
    
PS:
若是提示某个服务已经启动,可以去/tmp目录下删除对应的pid文件

打开浏览器:
    http://192.168.122.128:50070/
    http://192.168.122.128:50070/dfshealth.jsp

上传文件:(测试HDFS)
    # 随便创建一个文件a.txt,测试用
    $ vi a.txt
    # 打开网页,Utilities--Browse file system
    $ hdfs dfs -mkdir /input          #在HDFS上创建文件夹,没有类似-cd进入目录的参数
    $ hdfs dfs -put a.txt /input      #把本地文件拷到HDFS
    
----------------------------------
    
配置Yarn
    ** 两个管理器:resourcemanager、nodemanager
    
a)
# 在/etc/hadoop里,yarn-env.sh和mapred-env.sh文件:
# 将"export JAVA_HOME"注解取消
export JAVA_HOME=/opt/modules/jdk1.7.0_67
    
b)
#yarn-site.xml文件
    <!--NodeManager上运行的辅助(auxiliary)服务,需配置成mapreduce_shuffle,才可运行MapReduce程序-->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <!--指定resourcemanager主机-->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>blue01.mydomain</value>
    </property>
    
c)
#mapred-site.xml文件(去掉.template)
    <!--mapreduce是一种编程模型,运行在yarn平台上面-->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    
d)
hadoop-2.5.0/etc/hadoop/slaves文件:
** 记录哪些主机是datanode,每行一个主机名
** 替换掉原本localhost
blue01.mydomain


** 进入hadoop目录,启动yarn
$ sbin/yarn-daemon.sh start resourcemanager
$ sbin/yarn-daemon.sh start nodemanager

** yarn的作业监控平台,显示yarn平台上运行job的所用资源(CPU、内存)等信息
http://192.168.122.128:8088

测试:运行一个mapreduce作业
(需要启动namenode和datanode守护进程,在http://192.168.122.128:50070查看目标文件和结果文件)
# 运行官方提供的jar包,进行文件内单词统计(本例是以tab键'\t'作为单词间的分隔符)
# wordcount为程序名
# /input是输入路径,统计目录里的所有文件(可以上传多个文件试试)
# /output是输出路径,为了防止结果被意外覆盖,Hadoop规定输出文件一定不能存在
$ bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /input /output

# 可以打开http://192.168.122.128:8088,查看运行信息
# 查看统计结果
$ bin/hdfs dfs -cat /output/p*

------------------------------------------

** 点击history无效,继续配置historyserver服务:
** 历史服务:查看已经运行完成的MapReduce作业记录,比如本次作业用了多少Mapper、Reducer,
** 还能看到作业提交时间、作业启动时间、作业完成时间等信息。

配置日志服务器:
yarn-site.xml文件
    <!--启用日志聚合功能-->
    <property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
    </property>
    <!--日志保留时间,单位秒-->
    <property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>86400</value>
    </property>

mapred-site.xml文件
    <!--JobHistory服务的IPC地址(IPC:Inter-Process Communication进程间通信)-->
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>blue01.mydomain:10020</value>
    </property>
    <!--日志的web访问地址-->
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>blue01.mydomain:19888</value>
    </property>

    
重启yarn服务(jps)
$ sbin/yarn-daemon.sh stop resourcemanager    
$ sbin/yarn-daemon.sh stop nodemanager    
$ sbin/yarn-daemon.sh start resourcemanager    
$ sbin/yarn-daemon.sh start nodemanager        

启动historyserver服务
$ sbin/mr-jobhistory-daemon.sh start historyserver    

再次运行任务,必需改变输出目录
$ bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /input/ /output2    

需要在(注意:是Windows目录,而不是Linux)C:\Windows\System32\drivers\etc里面的hosts文件里添加映射
192.168.122.128  blue01.mydomain
此时再点击history,就能看到结果

---------------------------------------

解决警告:
$ bin/hdfs dfs -cat /output/par*  
# 执行类似的命令时,会出现WARN
# Unable to load native-hadoop library for your platform... using builtin-java classes where applicable    
# 意思是当前平台(Centos6.4 64bit)不能加载(不兼容)hadoop包,hadoop包在lib目录下

解决方法:用native-2.5.0.tar.gz替换lib/native包     
[tom@blue01 lib]$ rm -rf native
$ tar zxvf /opt/softwares/native-2.5.0.tar.gz

** 注意:CDH版本Hadoop不能用这个包来替换

=======================================================

PS:
编译Hadoop(选做,在Windows平台安装hadoop时,或者添加Hadoop一些额外功能时,才需要编译)
    **  hadoop-2.5.0.tar.gz  编译过后的包
    **  hadoop-2.5.0-src.tar.gz  没有经过编译的
    
    ** 系统必须联网(mvn仓库)
    hadoop-2.5.0-src.tar.gz --> hadoop-2.5.0.tar.gz
    ** 时间比较长,而且对网络条件要求高,只要有一个包maven下载漏掉,就要重新编译,很麻烦(参考编译操作文档)

---------------------------

PS:
一、MapR是MapR Technologies, Inc的一个产品,号称下一代Hadoop,使Hadoop变为一个速度更快、可靠性更高、更易于管理、
使用更加方便的分布式计算服务和存储平台,同时性能也不断提高。它将极大的扩大了Hadoop的使用范围和方式。它包含
了开源社区的许多流行的工具和功能,例如Hbase、Hive。它还100%和 Apache Hadoop的API兼容。它能够为客户节约一半
的硬件资源消耗,使更多的组织能够利用海量数据分析的力量提高竞争优势。目前有两个版本,M3和M5,其中M3是免费版,
M5为收费版。

二、NAT(Network Address Translation)网络地址转换,它是一个IETF标准,允许一个整体以一个公用IP地址出现在Internet上。
顾名思义,它是一种把内部私有网络地址翻译成合法网络IP地址的技术。简单的说,NAT就是在局域网内部网络中使用内部地址,
而当内部节点要与外部网络进行通讯时,就在网关处,将内部地址替换成公用地址,从而在外部公网(internet)上正常使用,
这一功能很好地解决了公共IP地址紧缺的问题。通过这种方法,只申请一个合法IP地址,就把整个局域网中的计算机接入Internet。
内部网计算机用户通常不会意识到NAT的存在。NAT功能通常被集成到路由器、防火墙、ISDN路由器或者单独的NAT设备中。

NAT有三种类型:静态NAT(Static NAT)、动态地址NAT(Pooled NAT)、网络地址端口转换NAPT(Port-Level NAT)。其中,
静态NAT设置起来最为简单和最容易实现的一种,内部网络中的每个主机都被永久映射成外部网络中的某个合法的地址。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值