hadoop
翻滚啊牛宝宝
good good study
展开
-
hive超大数据量排序
当使用hive或spark对超大数据量(几十亿)数据进行排序的时候,直接使用row_number函数会导致数据严重倾斜,都在一个reduce任务上执行,导致很难跑出来,一定要排序的还可以参考如下sql原创 2022-10-08 15:48:08 · 1411 阅读 · 3 评论 -
flume单机版环境搭建
flume逻辑上采用三层架构:Agent层:用于采集数据,可用于Flume存储数据流,同时Agent将产生的数据传输到Collector;Collector层:其作用是汇总多个Agent上报的数据并加载到Storage中,在多个Collector之间遵循负载均衡规则,在集群环境下该层体现比较明显,单机版展现不出来;Storage层:是一个存储系统,类型不固定,可以是文本文件、HDFS、...原创 2018-12-04 23:20:13 · 537 阅读 · 0 评论 -
hadoop环境搭建预备
lz也是刚开始学习hadoop,整理了一下环境的搭建,这一篇先将预备环境搭建出来。虚拟机配置首先搞出来五台虚机,lz使用的是centos6.9版本64位的。配置一下五台虚机的hosts,方便以后操作vim /etc/hosts//增加下面五行配置。ip自行处理192.168.146.132 node1192.168.146.133 node2192.168.146.134...原创 2018-12-01 18:08:11 · 162 阅读 · 0 评论 -
hadoop环境搭建(续预备)
继hadoop环境搭建预备节之后,开始正式搭建hadoop集群环境,先简单介绍下lz的环境,共五台虚机,node1-node5node1和node2为NameNodenode3-node5为DataNode安装包下载:lz使用的是2.7.7的包配置cd /data/soft/new/hadoop//解压压缩包tar -zxvf hadoop-2.7.7.tar.gzcd...原创 2018-12-01 20:16:48 · 162 阅读 · 0 评论 -
sqoop1环境搭建
Sqoop是Apache软件基金会的一款定级开源数据传输工具,用于在Hadoop与关系型数据库之间进行数据传递,他可以将关系型数据中的数据导入到Hadoop的分布式文件系统(HDFS)中,也可以将分布式文件系统中的数据导出到关系型数据库中。Sqoop的自动化流程,依赖于被导入的数据库表结构。Sqoop使用MapReduce计算框架来完成数据的导入和导出,并提供了并行操作和容错性。以上引自《...原创 2018-12-01 20:42:56 · 366 阅读 · 0 评论