大数据学习
taoKingRead
念念不忘,必有回响。
展开
-
Hadoop中Block和Split区别
两者是从不同的角度来定义的:HDFS以固定大小的block为基本单位存储数据(分布式文件系统,实际存储角度,物理存储单位);MapReduce以split作为处理单位(编程模型角度,逻辑单位);Block块第一部分就是数据的划分(即把File划分成Block),这个是物理上真真实实的进行了划分,数据文件上传到HDFS里的时候,需要划分成一块一块,每块的大小由hadoop-default.xml里配置选项进行划分。这个就是默认的每个块64MB:<name>dfs.bl...原创 2020-10-12 20:25:06 · 483 阅读 · 0 评论 -
HDFS的读文件、写文件过程
目录HDFS的重要特性HDFS写数据分析HDFS读数据分析HDFS删除数据分析NameNode元数据管理原理分析HDFS的重要特性HDFS是一个分布式文件系统,通过统一的命名空间(类似于本地文件系统的目录树),用于存储和管理文件。服务器集群中各个节点都有自己的角色和职责,具有以下特点:1. HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数(dfs.blocksize)来规定,默认大小在hadoop2.x版本中是128M,之前的版本中是64M。...原创 2020-10-12 20:20:23 · 1160 阅读 · 0 评论 -
Hadoop中任务提交运行流程
作业提交 -> 作业初始化 –> 任务分配 –> 任务执行 –> 更新任务执行进度和状态 -> 作业完成(6个步骤)客户端(Client):编写MapReduce程序,配置作业,提交作业JobTracker:协调作业的运行,分配作业,初始化作业,与TaskTracker进行通信TaskTracker:负责运行作业,保持与JobTracker的通信,HDFS:保持作业的数据与结构作业提交JobClient使用runJob方法新建一个Job...原创 2020-10-12 20:52:25 · 1272 阅读 · 0 评论 -
HiveSQL中复杂数据类型操作
Hive有三种复杂数据类型ARRAY、MAP和STRUCT,复杂数据类型允许任意层次的嵌套。目录array类型map类型struct类型array类型name与locations之间制表符分隔,locations中元素之间逗号分隔,数据样本集为:zhangsan beijing,shanghai,tianjin,hangzhoulisi changchu,chengdu,wuhan,beijing建表语句create...原创 2020-10-10 20:00:32 · 877 阅读 · 0 评论 -
HiveSQL常用数据处理语句
Hive中的库表基础信息查看--查看有哪些数据库show databases;--查看当前数据库下有哪些表show tables; --正则表达式显示表show tables like '*cc*';--查看Hive支持函数show functions;--查询表字段及注释desc table_name;--查询建表语句show create table_name;--查询表分区show partitions table_name;--查看表的结构...原创 2020-10-10 19:59:35 · 1245 阅读 · 0 评论 -
HiveSQL运行优化参数配置
执行任务时Map的任务数配置执行任务时Map的任务数配置,即执行任务时,上图标红的,number of mappers: 1 的数量。map的个数设置其实对执行效率有很大的影响:如果mappers数量过多,map任务启动和初始化的时间远远大于逻辑处理的时间,就会造成很大的资源浪费。而且,同时可执行的map数是受限的; 如果mappers数量过少,Hadoop的计算资源没有充分的利用,计算缓慢;map的个数主要的决定因素有: input的文件总个数,input的文件...原创 2020-09-28 18:32:25 · 2872 阅读 · 0 评论