【大数据零基础】大数据入门1

  1. Hadoop
    广义:以hadoop软件为主的生态圈
    狭义:hadoop软件
    大数据网站:hadoop.apache.org
    hive.apache.org
    spark.apache.org
    flink.apache.org
    hadoop软件:
    1.x
    2.x 生产用2.6
    3.x
    hadoop2.x组件:
    (1)hdfs: 存储 分布式文件系统 底层 生产
    其它的 hive/hbase
    (2)mapreduce: 分布式计算,生产不用,因为开发难度高、计算慢(shuffle 磁盘)
    代替 hive sql/spark
    (3)yarn: 资源(内存+core)+作业(job)调度管理系统 生产
    但:
    apache hadoop 不选择部署
    企业一般选择CDH、Ambari、hdp部署
    CDH:
    cloudera公司 将Apache hadoop-2.6.0源代码,修复bug,新功能,编译为自己的版本cdh5.7.0
    Apache hadoop-2.6.0 --》hadoop-2.6.0-cdh5.7.0
  2. 部署
    (1)添加sudo权限的无密码访问的hadoop用户
    useradd hadoop
    cat /etc/sudoers |grep hadoop
    su - hadoop
    (2)下载
    mkdir app
    cd app
    wget 下载
    tar -xzvf 解压
    Required software for Linux include:
    Java™ must be installed. Recommended Java versions are described at HadoopJavaVersions.
    ssh must be installed and sshd must be running to use the Hadoop scripts that manage remote Hadoop daemons.
    (3)JAVA1.7部署
    which java 查看java
    java -version 查看java版本
    (4)准备
    启动三种模式
    Local (Standalone) Mode: 单机 没有进程 不用
    Pseudo-Distributed Mode: 伪分布式 1台机器 进程 学习
    Fully-Distributed Mode: 分布式 进程 生产
    (5)配置文件
    (6)无密码ssh
    注意权限改为600
    (7)环境变量
    格式化文件系统
    启动NameNode进程和DateNode进程
    云主机,开启防火墙
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值