自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 HBase入门

什么是HBase?一、概念基于hdfs,高可靠性、高性能、列存储、可伸缩、快速响应、实时读写nosql的数据库系统二、应用场景Hbase非常适合用来进行大数据的实时查询。如:Facebook用Hbase进行消息和实时的分析。它也可以用来统计Facebook的连接数。三、整体架构各组件成员介绍及对应职责Clinet(客户端):包含访问HBase接口,维护一些cache(缓存),如:...

2020-01-15 11:39:50 185

转载 真的,关于 Kafka 入门看这一篇就够了【转载】

真的,关于Kafka入门看这一篇就够了

2020-01-13 18:46:33 393

原创 Flume入门

一、什么是Flume?是一个分布式可靠的高可用的海量日志收集、聚合、移动的工具。通俗来说flume就是一个日志采集工具。二、flume的特性1)flume可以高效率的将多个网站服务器中收集的日志信息存入HDFS/HBase中(这里测试时是以集群中不同主机作为一个服务器,然后采集不同主机上的日志文件并存入HDFS)2)移交数据速度快。flume可以将从多个服务器中获取的数据迅速移交给...

2020-01-08 00:35:49 335

原创 Hive入门(二)之Hive调优

在项目开发过程中,使用hive进行数据处理和分析的时候经常会出现问题,如:GC,数据倾斜,这些都是老生常谈的问题了,下面概括几个常用的hive调优方法Hive调优1)map端join1)如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成CommonJoin,即:在Reduce阶段完成join。容易发生数据倾斜。可以用MapJoin把小表全部加载...

2020-01-07 17:23:32 299

原创 Hive入门(一)

一、什么是Hive?基于hdfs,结合类SQL引擎,底层执行MR任务,用于OLAP分析查询的数据仓库。hive的运行原理(简单版理解)driver:解析器,将语句生成抽象的表达式树编译器:词法分析、语法分析、编译(需要联系元数据),编译完成后会生成执行计划优化器:将执行计划进行优化,减少不必要的列、使用分区等等执行器:将优化后的执行计划交给执行引擎运行二、Hive分区、分桶的意义...

2020-01-07 11:39:26 455

原创 scala入门篇(一)

简单总结一下scala这门编程语言,希望能让大家快速入门。一、scala简介介绍: scala是一门多范式,命令行式编程语言,将面向对象和函数式编程结合在一起并且基于JVM之上的语言。作者: scala的作者叫马丁·奥德斯基,同时也是Java JVM的开发者兼Java泛型的创始人。所以scala是基于java开发的,scala的任务也是基于JVM(虚拟机)基础之上。发行时间: 20...

2020-01-06 17:08:36 363

原创 Hadoop架构及各组件介绍

什么是hadoop?hadoop是一个可靠,可扩展的分布式开源框架,提供海量数据的存储和计算。一般hadoop指的是hadoop生态圈。一、先通过一张图了解一下hadoop生态系统整体框架结构。二、理解hadoop生态系统之前,我们先来认识几个概念:1.什么是分布式? 个人理解,就是将一个系统的功能模块分散部署在不同的服务器上,每个服务器上的系统分别对应一个模块功能,每个模块可能负...

2020-01-05 21:06:12 5360

原创 Hadoop核心组件之Yarn、Mapreduce(一)

什么是Yarn?一、概念是Hadoop生态的资源管理系统。YARN的职责主要是资源管理和Job调度管理。二、yarn的各个成员及职责yarn的主要成员有:ResouceManager、NodeManager、ApplicationMaster、Container。1.ResouceManager职责: 1)处理客户端请求 2)启动或监控ApplicationMaster 3)监控...

2020-01-05 14:28:25 470

原创 Hadoop核心组件之HDFS(二)

HDFS的高可靠性的策略机制有哪些?分布式文件系统(HDFS)的高可靠性主要是由多种策略及机制共同作用实现的。常见的三种错误情况:文件损坏、网络或者机器失效、NameNode挂掉。下面我们来看下解决三种常见错误的可靠性策略:**1.文件完整性** –CRC32校验,验证数据是否损坏 在文件建立时,每个数据块都产生校验和,校验和会保存在.meta文件内;客户端获取数据时可以检查...

2020-01-04 17:58:26 210

原创 Hadoop核心组件之HDFS(一)

HDFS读流程读流程描述:1. 客户端通过RPC机制调用DistributedFileSystem(分布式文件系统)的FileSystem对象的open()方法与Namenode交互。2. DistributedFileSystem会给Namenode发送请求。3. Namenode接收请求并处理请求: ①会先检查文件是否在Namenode维护的统一命名空间(即目录树结构)中,如果不存...

2020-01-04 16:55:38 545

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除