![](https://img-blog.csdnimg.cn/20201023151235993.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Hadoop生态圈
文章平均质量分 55
介绍hadoop生态圈的各个组件
冷雨夜下的星空
不负青春、不负卿
展开
-
【一】hadoop概述
##大数据技术概览###1.1基本特征传统数据 大数据数据量 GB->TB TB->PB以上** 速度** 数据量稳定,增长不快 实时产生处理,年增长率超过60%多样性 结构化数据 结构化、半结构化、非结构化数据价值 统计报表 机器学习、深度学习**大数据:*...原创 2020-04-10 15:54:42 · 136 阅读 · 0 评论 -
Hadoop HDFS 常见问题【一】
大数据概念和基础***1.大数据的四个特点:数据规模大,生成、处理速度快,数据类型多样,价值巨大密度低;2.大数据历史:三篇论文(GFS,mapReduce,bigTable),CDH,HBASE,SPARK,TDH等HDFS*****1.HDFS为什么不适合存储大量小文件?答:1.大量文件的元数据占用NameNode大量内存空间2.磁盘寻道时间超过读取时间2.HDFS 何时离开安......原创 2019-02-01 10:56:29 · 854 阅读 · 0 评论 -
Hadoop HDFS master-slave机制 【二】
hadoop 的hdfs分布式文件系统,namenode采用了master-slave机制,什么是master-slave机制下面做一个简单的介绍master-slave 称作主从设备模式,核心思想是基于分而治的思想,将一个原始任务分解成多个语义相同的子任务,并由专门的线程来执行这些任务。最终的结果是通过整合各个子任务得出的。主要的使用场景有并行计算,以提升计算性能容错处理,以提升计算的可......原创 2019-06-25 23:30:13 · 1413 阅读 · 0 评论 -
Hadoop MapReduce 常见问题【二】
MapReduce***1.mapreduce核心思想?1.分治思想;2.移动计算而不是移动数据2.特点:计算跟着数据走,批处理,高容错,扩展好3.MR的几个阶段?split:Split的大小默认 等于 Block大小,决定map任务数量;map:split切片输入,key-value输出reduce:由若干Reduce任务组成,数量由程序指定shuffle:中间环节,包括分区(哈...原创 2019-06-14 11:04:54 · 430 阅读 · 0 评论 -
Hadoop YARN【一】
YARN三思 ItStar 今天概念YARN是一种新的Hadoop资源管理器,它是一个通用的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。内部组件Client:负责提交应用程序。ResourceManager:全局的资源管理器, 整个集群只有一个, 负责集群资源的统一管理和调度分配。ApplicationMaster:在yarn上运行的应用程......原创 2019-11-27 19:45:56 · 222 阅读 · 0 评论 -
Hadoop YARN 常见问题【二】
YARN**1.yarn与mapreduce的关系?答:(1)yarn是资源调度框架,mapreduce是分布式计算框架;(2)yarn将jobTracker的资源管理和任务调度划分开了,通过ResourceManager进行资源的统一管理和分配,ApplicationManager进行解析mapreduce程序然后变成一个个小任务,需要多少资源向ResourceManager请求,然...原创 2019-06-14 11:03:01 · 254 阅读 · 0 评论 -
Hadoop Spark 常见问题【一】
Spark*****1.RDD?数据集拆分;数据存储在内存或者磁盘;多分区;失效自动重构;转换操作构造2.RDD俩种依赖?窄依赖(父RDD中的分区最多只能被一个子RDD的一个分区使用)和宽依赖(子RDD依赖于所有父RDD)3.spark 角色?1.driver;main函数在里面2.sparContext:加载配置信息,初始化运行环境,创建DAGScheduler和TaskSched......原创 2019-06-14 11:08:52 · 132 阅读 · 0 评论 -
Hadoop Flume 常见问题 【一】
Flume*1.数据流模式:source—channel(可以缓存)—sink2.事务机制:支持重读重写3.agent:jvm的运行单元,将外部数据送到目的地,内涵一个数据流,以event作为数据单元进行传输4.1个souece对应多个channel,1channel对应1个sink5.flume单层架构(数据暴露,安全性差,产生许多小文件),多层架构(安全但是复杂)......原创 2019-06-14 11:11:30 · 316 阅读 · 0 评论 -
Hadoop Kafka 常见问题 【一】
Kafka*broker:server;topic:消息贴标签组成一类 分类的过程,同一类,方便处理,有了topic就可以隔离其他类数据,他是一个逻辑概念;partiion:物理概念要落盘 不可更改只读,一个topic多个分区,一个分区一个目录,一个分区代表一个文件夹 一个分区多个副本 放在不同的broker上;zk:broker的负载均衡,leader的选举,元数据存储,CG之间的r......原创 2019-06-14 11:13:38 · 417 阅读 · 0 评论 -
Hadoop 开发流程
1、数据采集:也可以说是原始数据2、数据汇聚:经过清洗可用的数据3、数据转换和映射:经过分类。提取的专项数据4、数据分析:模型的应用5、数据可视化:分析好的数据可视化,更直观。数据采集数据采集有线上和线下两种方式,线上一般通过爬虫、通过抓取,或者通过已有应用系统的采集,在这个阶段,我们可以做一个大数据采集平台,依托自动爬虫(使用python或者nodejs制作爬虫软件),ETL工具、或...原创 2019-01-22 09:38:44 · 2467 阅读 · 0 评论 -
hadoop-不同集群之间数据拷贝
hadoop不同集群之间数据拷贝,拷贝时两个集群要用active namenode去拷贝,datanode是不具备拷贝功能的,所以当我们把数据拿到hdfs路径上时,要去判断当前集群哪个主节点是active的,所以大致步骤为数据落到hdfs上beeline -u jdbc:hive2://158.222.14.103:10000/ln -e “insert overwrite direct...原创 2019-12-17 10:20:12 · 663 阅读 · 0 评论