大数据_马上要秃头的我的博客-CSDN博客

大数据

关注

文章平均质量分 51

大数据相关的组件

关注数：文章数：11 文章阅读量：9198 文章收藏量：19

作者: 马上要秃头的我

本人擅长Ai、Fw、FI、Br、Ae、Pr、ld、Ps等软件的安装与卸载,精通CSS、JavaScript、PHP、ASP、C、C+十、C#、Java、 Ruby、Perl、 Lisp、 python、 Objective-C、 ActionScript、 Pascal、spss、 sas等单词的拼写,熟悉Windows、Linux、 Mac、Android、ios、WP8等系统的开关机

展开

Hive调优

Hive调优

原创 2020-08-24 19:32:24 · 132 阅读 · 0 评论
为什么Spark运行比MapReduce快

为什么Spark运行时感觉比MapReduce快IOShuffle进程、线程 Spark感觉比MapReduce快主要有三点。 IO Spark和MapReduce的计算都发生在内存中，但是MapReduce通常将计算的中间结果写入磁盘，然后还要读取磁盘，从而导致了频繁的磁盘IO。Spark则因为RDD（弹性分布式数据集）和DAG（有向无环图）不需要将计算的中间结果写入磁盘。中间结果以RDD的形式存放在内存中，大大减少了磁盘IO。 Shuffle MapReduce在Shuffle时需要花费大量时间进行排序

原创 2020-08-23 21:16:30 · 823 阅读 · 1 评论
Kafka消息队列组件简介

Kafka消息队列组件消息队列的工作模式消息队列的工作模式

原创 2020-08-23 16:44:09 · 439 阅读 · 0 评论
HBase简介

HBase简介简介特点组成HMaster作用HRegionServer作用其他组件作用原理HBase原理之读流程HBase原理之写流程HBase原理之数据Flush流程HBase原理之数据合并流程简介 HBase是一个分布式的、面向列的开源数据库。特点海量存储、列式存储、极易扩展、高并发、稀疏。组成 HBase是由Client、Zookeeper、HMaster、HRegionServer、HDFS等几个组件组成。 Client包含了访问HBase的接口。 HBase通过Zookeeper来做HM

原创 2020-08-23 15:06:38 · 366 阅读 · 0 评论
Hive简介

Hive简介数据仓库HiveHive架构原理Hive中基本数据类型DDL创建表内部表(管理表)与外部表分区表把数据直接上传到分区目录上，让分区表和数据产生关联的三种方式上传数据后修复上传数据后添加分区上传数据后load数据到分区DMLDQLLike和Rlikejoin分区排序（Distribute By）Cluster By分桶分桶抽样查询其他常用查询函数空字段赋值CASE WHEN行转列列转行Hive简单调优Fetch抓取本地模式严格模式数据仓库数据仓库是一个支持管理决策的数据集合。数据仓库是面向主题

原创 2020-08-23 11:33:13 · 380 阅读 · 0 评论
Zookeeper简介

Zookeeper简介应用场景Zookeeper选举机制节点类型监听器原理Client向Zookeeper写入数据的流程应用场景服务器节点动态上下线、统一配置管理、软负载均衡、集群管理等。 Zookeeper选举机制半数机制：集群中半数以上机器存活，集群可用，否则集群处于瘫痪状态不可用。节点类型 Znode有四种形式的目录节点。持久化目录节点、持久化顺序编号目录节点、临时目录节点、临时顺序编号目录节点。监听器原理 1.首先要有一个main()线程 2.在main线程中创建Zookeeper客户

原创 2020-08-23 09:28:29 · 204 阅读 · 0 评论
Yarn简介

Yarn简介Yarn基本架构Yarn工作机制资源调度器FIFO(先进先出调度器)Capacity Scheduler(容量调度器)Fair Scheduler(公平调度器) Yarn基本架构 YARN主要由ResourceManager、NodeManager、ApplicationMaster（AM）和Container等组件构成。 Yarn工作机制 1.MapReduce程序提交到客户端所在的节点。 2.Yarnrunner向ResourceManager申请一个Application。 3.RM将该

原创 2020-08-22 23:39:27 · 143 阅读 · 0 评论
MapReduce简介

MapReduce简介MapReduce优点MapReduce缺点MapReduce核心思想切片机制FileInputFormat切片机制CombineTextInputFormat切片机制MapTask工作机制Shuffle机制Combiner合并排序Reduce Task工作机制ReduceTask的个数决定了有几个结果文件MapReduce数据压缩压缩特性运用得当能提高性能，但运用不当也可能降低性能，基本原则：MapReduce支持的压缩编码可以使用压缩的位置MapReduce调优数据输入Map阶段R

原创 2020-08-22 23:31:51 · 893 阅读 · 0 评论
HDFS的简单介绍

HDFS的简单介绍HDFS写数据流程HDFS读数据流程NameNode和SecondaryNameNode工作机制DataNode工作机制 HDFS写数据流程 1.客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查元数据判断目标文件是否已经存在，父目录是否存在。 2.NameNode返回是否可以上传。 3.客户端请求第一个 block上传到哪几个DataNode服务器上。 4.NameNode返回3个DataNode节点，分别为DataNode1

原创 2020-08-22 21:45:10 · 160 阅读 · 0 评论
Hadoop集群第一次启动为什么要格式化NameNode

Hadoop集群第一次启动为什么要格式化NameNode原因如何格式化原因 1.Hadoop生态中的文件系统HDFS类似一块磁盘，初次使用硬盘需要格式化，让存储空间明白该按什么方式组织存储数据。 2.格式化NameNode会产生新的集群id，导致NameNode和DataNode的集群id不一致，集群找不到以往数据。如何格式化格式化NameNode前，先关闭掉NameNode节点和DataNode节点，然后一定要删除hadoop目录下的data文件夹和log日志文件夹。最后再进行格式化。 hadoop

原创 2020-08-22 20:37:34 · 5539 阅读 · 1 评论
WordCount案例的Java实现和Scala实现

WordCount案例的java实现和scala实现WordCount案例的java实现maven项目导入依赖Mapper类Reducer类Driver类WordCount案例的scala实现maven项目导入依赖Object WordCount案例的java实现 maven项目导入依赖 <dependency> <groupId>org.apache.hadoop</groupId> <artifac

原创 2020-08-17 11:37:59 · 119 阅读 · 0 评论

大数据

作者: 马上要秃头的我

Hive调优

为什么Spark运行比MapReduce快

Kafka消息队列组件简介

HBase简介

Hive简介

Zookeeper简介

Yarn简介

MapReduce简介

HDFS的简单介绍

Hadoop集群第一次启动为什么要格式化NameNode

WordCount案例的Java实现和Scala实现