![](https://img-blog.csdnimg.cn/20210906164817768.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Hadoop
文章平均质量分 69
hadoop
郝少
爱出者爱返,福往者福来。
展开
-
sqoop的安装及简单使用
一、说明1、sqoop是sql to hadoop的缩写。2、连接传统关系型数据库和Hadoop的桥梁,把关系型数据库的数据导入到 Hadoop 系统 ( 如 HDFS、HBase 和 Hive) 中; 把数据从 Hadoop 系统里抽取并导出到关系型数据库中;3、利用MapReduce,批处理方式进行数据传输4、sqoop有两个版本,sqoop1(1.4.x)和sqoop2(1.99.x);因为官方并不建议在生产环境中使用sqoop2,所以这里使用的是sqoop1;5、sqoop1底层原创 2020-06-29 10:52:37 · 1299 阅读 · 0 评论 -
命令查看yarn当前任务列表
命令查看yarn当前任务列表原创 2020-06-24 14:48:37 · 16184 阅读 · 0 评论 -
spark on Yarn测试
1、启动yarn[root@master sbin]# ./start-dfs.shStarting namenodes on [master]master: starting namenode, logging to /opt/softWare/hadoop/hadoop-2.7.3/logs/hadoop-root-namenode-master.outslaves1: star...原创 2019-12-05 22:57:41 · 1047 阅读 · 0 评论 -
Hadoop集群搭建
一、搭建前准备1、为各个主机设置主机名2、为各个主机配置SSH免密登录3、为各个主机安装JDK4、假设有三台主机:master(主节点)、slave1(从节点)、slave2(从节点)。二、安装hadoop集群1、注意Hadoop如果是2.7.X,对应的jdk选择1.8或者1.7都可以, 推荐使用1.8,如果Hadoop是2.6.X,对应的jdk就选择1.72、将h...原创 2019-07-20 08:32:56 · 1118 阅读 · 0 评论 -
Spark虽然是基于内存的计算框架,但也会产生磁盘I/O开销
Hadoop中MapReduce的Shuffle过程不仅会产生大量的网络传输开销,也会带来大量的磁盘I/O开销,但Spark在Shuffle过程有时也会如此。一、MapReduce的Shuffle操作 在Hadoop MapReduce框架中,Shuffle是连接Map和Reduce之间的桥梁。所谓Shuffle,是指对Map输出结果进行分区、排序、合并等处理并...原创 2019-09-07 14:50:30 · 2188 阅读 · 2 评论