hive中 sqoop详解

最新推荐文章于 2022-11-03 12:39:40 发布

Chic_数据媛

最新推荐文章于 2022-11-03 12:39:40 发布

阅读量2.2k

点赞数 1

分类专栏： hive sqoop 文章标签： hive sqoop详解

本文链接：https://blog.csdn.net/chic_data/article/details/53055040

版权

sqoop

   RDBMS ----> HDFS HIVE HBASE
   HDFS HIVE HBASE ----> RDBMS
    hadoop（hdfs）是RDMS（关系型数据库）之间的桥梁，主要的作用就是在hdfs和rdms之间导入导出数据
   flume：文件库收集框架（主要收集业务系统的操作日志）
   oozie：任务调度框架（主要用来执行有规律的重复的shell里面的job）
   hue：协作框架的整合，监控
   kafka：负责集群的协作负载，以及命名服务等
之前使用的都是Apache版本的软件

   sqoop1和sqoop2
       sqoop1和sqoop2完全不兼容
       Sqoop2比Sqoop1的改进
           引入sqoop server，集中化管理Connector等
           多种访问方式：CLI，Web UI，REST API
           引入基于角色的安全机制

   sqoop导入导出的基准点是hdfs
       如果是往hdfs写数据（包括hive），就是导入；
       如果是往hdfs读出数据（包括hive），就是导出；

   操作关键点
       链接数据库
           url：端口号/数据库，用户名，密码
       ||
sqoop=> import export
       ||
       hdfs
           path
       hive
           tablename

CDH版本软件安装

安装cdh版本的hadoop
       解决了大数据Hadoop 2.x生态系统中各个框架的版本兼容问题
   hadoop和sqoop之间的协作
       连接传统关系型数据库和Hadoop的桥梁
       把关系型数据库的数据导入到Hadoop与其相关的系统(HBase和Hive)中
       把数据从Hadoop系统里抽取并导出到关系型数据库里
       利用hadoop的hdfs传递存储数据，mapreduce批量处理数据
       yarn资源调度

第一步：安装hadoop
   1.创建一个cdh5.3.6目录
       mkdir /opt/cdh5.3.6
   2.安装 hadoop
   $ tar -zxvf hadoop-2.5.0-cdh5.3.6.tar.gz -C /opt/cdh5.3.6/

   3.配置环境文件
   hadoop-env.sh yarn-env.sh mapred-env.sh
   export JAVA_HOME=/opt/modules/jdk1.7.0_67

   4.配置文件
   core-site.xml文件
   
   <property>
       <name>fs.defaultFS</name>
       <value>hdfs://nicole02.com.cn:8020</value>
   </property>

   
   <property>
       <name>hadoop.tmp.dir</name>
       <value>/opt/cdh5.3.6/hadoop-2.5.0-cdh5.3.6/tmp</value>
   </property>

   hdfs-site.xml
   <property>
       <name>dfs.replication</name>
       <value>1</value>
   </property>

   mapred-site.xml
   
   <property>
           <name>mapreduce.framework.name</name>
           <value>yarn</value>
   </property>
   <property>
           
           <name>mapreduce.jobhistory.address</name>
           <value>nicole02.com.cn:10020</value>
   </property>
   <property>
           
           <name>mapreduce.jobhistory.webapp.address</name>
           <value>nicole02.com.cn:19888</value>
   </property>

   yarn-site.xml
   
   <property>
           <name>yarn.nodemanager.aux-services</name>
           <value>mapreduce_shuffle</value>
   </property>

最低0.47元/天解锁文章

Chic_数据媛

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
hive中 sqoop详解

sqoop RDBMS ----> HDFS HIVE HBASE HDFS HIVE HBASE ----> RDBMS hadoop（hdfs）是RDMS（关系型数据库）之间的桥梁，主要的作用就是在hdfs和rdms之间导入导出数据 flume：文件库收集框架（主要收集业务系统的操作日志） oozie：任务调度框架（主要用来执行有规律的
复制链接

扫一扫

专栏目录