hive中 sqoop详解


sqoop


    RDBMS ----> HDFS HIVE HBASE
    HDFS HIVE HBASE ----> RDBMS

    hadoop(hdfs)是RDMS(关系型数据库)之间的桥梁,主要的作用就是在hdfs和rdms之间导入导出数据
    flume:文件库收集框架(主要收集业务系统的操作日志)
    oozie:任务调度框架(主要用来执行有规律的重复的shell里面的job)
    hue:协作框架的整合,监控
    kafka:负责集群的协作负载,以及命名服务等
  之前使用的都是Apache版本的软件




    sqoop1和sqoop2
        sqoop1和sqoop2完全不兼容
        Sqoop2比Sqoop1的改进
            引入sqoop server,集中化管理Connector等
            多种访问方式:CLI,Web UI,REST API
            引入基于角色的安全机制

    sqoop导入导出的基准点是hdfs
        如果是往hdfs写数据(包括hive),就是导入;
        如果是往hdfs读出数据(包括hive),就是导出;

    
    操作关键点
        链接数据库
            url:端口号/数据库,用户名,密码
        ||
  sqoop=>  import export
        ||
        hdfs
            path
        hive
            tablename


CDH版本软件安装

安装cdh版本的hadoop
        解决了大数据Hadoop 2.x生态系统中各个框架的版本兼容问题
    hadoop和sqoop之间的协作
        连接传统关系型数据库和Hadoop的桥梁
        把关系型数据库的数据导入到Hadoop与其相关的系统(HBase和Hive)中
        把数据从Hadoop系统里抽取并导出到关系型数据库里
        利用hadoop的hdfs传递存储数据,mapreduce批量处理数据
        yarn资源调度

    
第一步:安装hadoop
    1.创建一个cdh5.3.6目录
        mkdir /opt/cdh5.3.6
    2.安装 hadoop
    $ tar -zxvf hadoop-2.5.0-cdh5.3.6.tar.gz -C /opt/cdh5.3.6/
    
    3.配置环境文件
    hadoop-env.sh  yarn-env.sh  mapred-env.sh
    export JAVA_HOME=/opt/modules/jdk1.7.0_67

    4.配置文件
    core-site.xml文件
    <!-- 指明了namenode的地址,端口号:8020 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://nicole02.com.cn:8020</value>
    </property>
    
    <!-- hadoop运行时使用的临时文件夹 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/cdh5.3.6/hadoop-2.5.0-cdh5.3.6/tmp</value>
    </property>

    hdfs-site.xml
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>

    mapred-site.xml
    <!-- 告诉hadoop,mapreduce要在yarn上启动 -->
    <property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>
    </property>
    <property>
            <!--配置实际运行历史服务的主机名和端口-->
            <name>mapreduce.jobhistory.address</name>
            <value>nicole02.com.cn:10020</value>
    </property>
    <property>
            <!-- 在web页面访问历史服务的主机名和端口 -->
            <name>mapreduce.jobhistory.webapp.address</name>
            <value>nicole02.com.cn:19888</value>
    </property>

    yarn-site.xml
    <!-- NodeManager获取数据的方式是shuffle -->
    <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
    </property>
    <!-- 指定YARN的管理者resourcemanager在哪里 -->
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值