大数据
文章平均质量分 89
Var.can
这个作者很懒,什么都没留下…
展开
-
hive调优
hive调优explain select count(*) from table_name;explain extended select count(*) from table_name;核心思想把hive sql当作mapreduce程序去优化以下sql 不会转为Mapreduce来执行 select 及查询本表字段,where仅对本表字段条件过滤hive对某些情况的查询不需要使用map reduce1.抓取策略 set hive.fetch.task.conversion=n原创 2021-03-27 10:09:20 · 146 阅读 · 0 评论 -
Hadoop Map-Reduce源码分析(Map)
Hadoop Map-Reduce源码分析(Map)Mapper注本文前提条件,您已知道Map的逻辑和其具体的细分步骤以WordCount代码为例子public class MyMapperMap extends Mapper<Object, Text, Text, IntWritable> public class MyMapperReduce extends Reducer<Text, IntWritable, Text, IntWritable> 我们自己写的原创 2021-02-27 16:47:14 · 259 阅读 · 0 评论 -
大数据5-NameNode和DataNode详解
Hadoop----NameNode和DataNode详解NameNodenamenode概述namenode是整个文件系统的管理节点。它维护着整个文件系统的文件目录树;文件/目录的元信息和每个文件对应的数据块列表。接收用户的操作请求。 namenode包含两个文件:FsImage(元数据镜像文件。存储某一时段NameNode内存元数据信息)和Editlog(操作日志文件)Nam...原创 2020-04-11 18:19:50 · 2827 阅读 · 0 评论 -
大数据4-HDFS API(java)
HDFS–api操作(java)引入maven<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>RELEASE</version> <...原创 2020-04-01 19:22:54 · 121 阅读 · 0 评论 -
大数据3-HDFS
HDFS产生的背景和定义1.1 背景 随着数据量的增大,在一个操作系统中存不下所有的数据,那么久分配到更多的操作系统管理的磁盘中,但不方便管理和维护,迫切需要一种系统来管理多台机器上面的文件,这是分布式文件管理系统,hdfs只是分布式文件管理系统中一种;1.2 定义 HDFS(Hadoop Distrubuted File System),它是一个文件系统,用于存储文件,通过目录树来定...原创 2020-03-28 20:44:09 · 201 阅读 · 0 评论 -
大数据2-Hadoop搭建
HADOOP搭建前提在linux系统上需要安装JDK 才能正常运行hadoop,JDK版本建议1.8;安装HadoopHadoop下载地址:https://archive.apache.org/dist/hadoop/common/hadoop-2.7.2/将Hadoop.tar.gz 放置在/opt/software 目录下解压至/opt/module 下 命令:t...原创 2020-03-21 18:37:28 · 124 阅读 · 0 评论