大数据
文章平均质量分 62
凹谷
这个作者很懒,什么都没留下…
展开
-
HBase RowKey设计原则(全面)
HBase的行健设计原则文章主要依据HBase官方文档和一些相关文章总结而来,可以说是比较靠谱和全面的一个rowkey设计总结。 言归正传,对于关系型数据库,数据定位可以理解为“二维坐标”;但是hbase中需要四维来定位一个单元格,即[行健、列族、列限定符、时间戳] HBase中rowkey可以唯一标识一行记录,在HBase查询的时候,有以下几种方式:通过get方式,...原创 2020-02-18 11:17:41 · 302 阅读 · 1 评论 -
流式计算引擎-Storm、Spark Streaming
目前常用的流式实时计算引擎分为两类:面向行和面向微批处理,其中面向行的流式实时计算引擎的代表是Apache Storm,典型特点是延迟低,但吞吐率也低。而面向微批处理的流式实时计算引擎代表是Spark Streaming,其典型特点是延迟高,但吞吐率也高。主流的流式数据线分四个阶段:1、数据采集:负责从不同数据源上实时采集数据,可选包括Flume以及自定义Kafka Prod...原创 2018-11-23 10:53:48 · 4893 阅读 · 0 评论 -
ElasticSearch
# 第一章 ElasticSearch入门篇## 第一节 ElasticSearch概述### 1.1ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTfulweb接口。ElasticSearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定...转载 2018-11-29 11:29:42 · 355 阅读 · 0 评论 -
全文搜索引擎 ElasticSearch
ElasticSearch观念转换:索引:可以认为是数据库中的一个Schema。类型:逻辑上具有相同格式的文档集合,可以和数据库中的表概念类似。文档:对所描述的实体对象的具体实例化,可以和数据库中的行相对应。字段:以Json的键值对方式组织的多个字段。字段可以是对象类型、数组类型或者核心数据类型,字段可以与数据库列对应。集群节点类型:主节点:负责节点间集群之间的变更协调。这些变...原创 2018-11-27 14:22:13 · 162 阅读 · 0 评论 -
Spark SQL
Spark SQL:不仅是数据仓库的引擎,而且也是数据挖掘的引擎,更为重要的事Spark SQL是数据科学计算和分析引擎。Hive+Spark SQL+DataFrame组成了目前国内的大数据主流技术组合:Hive:负责低成本的数据仓库存储Spark SQL:负责高速的计算DataFrame:负责复杂的数据挖掘DataFrame与RDD的差异:RDD是以Record为单位的...原创 2018-12-12 20:25:21 · 405 阅读 · 0 评论 -
Spark Streaming 应用场景
Spark Streaming 应用场景流ETL:将数据推入下游系统之前对其进行持续的清洗和聚合,这么做通常可以减少最终数据存储中的数据量。触发器(Triggers):实时检测行为或异常事件,及时触发下游动作,例如当一个设备接近了检测器或者基地,就会触发警报。数据浓缩:将实时数据与其他数据集连接,可以进行更丰富的分析,例如将实时天气信息与航班信息结合,以建立更好的旅行警报。复杂会话...原创 2019-01-22 19:39:10 · 881 阅读 · 0 评论 -
Hive原理实践
Hive基本架构 Driver组件:核心组件,整个Hive的核心,该组件包括Complier(编译器)、Optimizer(优化器)和Executor(执行器),它们的作用是对Hive SQL语句进行解析、编译优化,生成执行计划,然后调用底层的MapReduce计算框架。Metastore组件:元数据服务组件,这个组件存储Hive的元数据。支持的关系型数据库有Derby和MySQL...原创 2019-02-21 20:27:18 · 527 阅读 · 1 评论 -
程序员2019年应该做的8件事,别再等到中年危机了~
2018年了,给自己定个小目标,不说赚它几个亿,以下8件都值得我们每个程序员去做。 1.学习一门新的不同风格的编程语言 这是很需要的一件事,因为如果你只了解一种语言,它就会局限你解决问题的能力和你的职业发展。所以在新的一年,你应该花些时间学习一门新的语言,体验不同的编程风格,并学以致用。 2.提高你的已有技能 如今Hibernate框架、Spring MVC...转载 2019-02-22 10:56:16 · 176 阅读 · 0 评论 -
大数据常用技术介绍-Sqoop、Flume、Kafka、MapReduce、Hive、Spark、Strom、Beam等
数据采集传输主要技术分为两类,一类是离线批处理、另一类是实时数据采集和传输离线批处理最有名的是Sqoop、实时数据采集和传输最为常用的是Flume和KafkaSqoop:一款开源的离线数据传输工具,主要用于Hadoop(Hive)与传统数据库(Mysql、Oracle)之间数据传递。 Flume:实时日志采集平台,一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统。 Kaf...原创 2019-02-20 15:40:27 · 2232 阅读 · 0 评论 -
可扩展超快OLAP引擎: Kylin
Kylin沿用了原来的数据仓库技术中的Cube概念,把无限数据按有限的维度进行“预处理”,然后将结果(Cube)加载到Hbase里,供用户查询使用。Kylin是通过空间换时间的方式,实现在亚秒级别延迟的情况下,对Hadoop上的大规模数据集进行交互式查询,Kylin通过预计算,把计算结果集保存到Hbase中,原有的基于行的关系模型被转化为基于键值对的列式存储,通过维度组合作为HBase的...原创 2019-04-03 12:03:43 · 324 阅读 · 0 评论 -
大数据技术体系、数据湖、数据中台
原创 2019-06-06 14:31:44 · 3943 阅读 · 0 评论 -
大数据收集层常用技术-Sqoop、Flume、Kafka
Sqoop:关系型数据收集使用场景:数据迁移、可视化分析结果、数据增量导入基本架构:存在两个版本,1.4.x和1.99.x,通常简称为sqoop1和sqoop2sqoop1:Connector定制麻烦、客户端软件繁多、安全性差sqoop2:引入了sqoop server,将所有管理工作都放到server端,用户可以通过客户端命令或者浏览器随时随处使用sqoop。使用方式:sqoo...原创 2018-11-20 10:08:36 · 3287 阅读 · 0 评论 -
ROLAP场景下的交互式计算引擎Impala和Presto
应用于ROLAP场景下的交互式计算引擎Impala和Presto具有以下特点:1、跟Hadoop生态系统完好结合,可与Hive Metastore对接,处理hive中的表,可直接处理存储在HDFS和Hbase中的数据。2、计算与存储分析:仅仅是查询引擎,不提供数据存储服务。3、MPP架构,采用经典的MPP架构,具有良好的扩展性,能够应对TB甚至PB级数据交互式查询需求;4、嵌套...原创 2018-11-22 17:18:59 · 1110 阅读 · 0 评论 -
分布式结构化存储系统Hbase
Hbase数据模型分为逻辑数据模型和物理数据模型。1、逻辑数据模型:namespace(数据库)和table(表)hbase:系统内建表,包括namespace和meta表;default:用户建表未制定namespace的表都创建在此;Hbase表有一系列行构成,每行数据有一个rowkey以及若干column family构成,每个cloumn family 可包括无限列。(ro...原创 2018-11-20 19:07:24 · 312 阅读 · 0 评论 -
大数据工作流Oozie
提供Hadoop任务的调度和管理,不仅可以管理MapReduce任务,还可以管理pig、hive、sqoop、spark等任务,Oozie就是一个基于hadoop的工作流引擎。 两个主要组件:工作流定义组件:一系列Action个的列表(Action就是一个任务节点,eg:MapReduce任务、pig任务、hive任务等)调度器组件:可调度的WorkFlow(workflow就是定义一个D...原创 2018-11-20 19:11:45 · 776 阅读 · 1 评论 -
大数据处理Pig
Pig用于处理大规模数据的高级查询语言由两部分组成:用于描述数据流的语言Pig Latin和执行Pig Latin程序的执行环境,使用Pig Latin可以对数据进行加载、排序、过滤、求和、分组、关联、存储操作等。 应用场景:以数据流水线的方式考虑问题,并需要对作业运行方式更细粒度的控制。 Pig运行模式:1、本地模式:grunt shell 方式、脚本文件方式、嵌入式程序方式2、M...原创 2018-11-20 19:13:48 · 757 阅读 · 0 评论 -
Hive-数据仓库
交互方式-用户接口:CLI(linux命令行)、WUI(hive web页面)、Client(连接远程服务HiveServer2,eg:JDBC、ODBC)Hive命令行模式:1、进入bin 执行./hiv2、配置Hive环境变量,直接执行命令:hive --service cli 或 hiveHive的web模式:执行hive -service hwi 启动后访问http...原创 2018-11-20 19:16:02 · 474 阅读 · 0 评论 -
Spark
spark运行的中间数据是放到内存中。spark在内存中运行是MapReduce的100多倍,在磁盘上运行是MapReduce的10多倍yarn-site.xml 查看yarn任务web页面端口RDD:弹性分布式数据集,spark将Rdd划分为若干子集,每个子集称为一个分区,分区是RDD的基本组成单位创建RDD的三种方式:1、基于集合创建2、基于外部存储创建,textFil...原创 2018-11-20 19:19:47 · 163 阅读 · 0 评论 -
分布式消息队列Kafka
基本概念主题:好比数据库表,或者系统中文件夹分区:一个主题可以分若干分区,同一个分区内可以保证有序偏移量:一个不断递增的整数值,每个分区的偏移量是唯一的broker:一个独立的kafka服务器MirrorMaker工具:多集群间消息复制Zookeeper:保存集群元数据和消费者信息,broker和主题元数据、消费者元数据分区偏移量硬件选择磁盘吞吐量、磁盘容量、内存...原创 2018-11-20 19:25:38 · 138 阅读 · 0 评论 -
HBSAE笔记-NoSQL 非关系型数据库
Hbase 使用场景:有数十亿列,同时在很短时间内有数以千计的读写数据操作每天写入量巨大,而相对读数量较小的应用,不需要复杂查询条件来查询数据的应用,HBase只支持基于rowkey的查询读写流程:clinet-wal-memstore-Hfile 概念:Hmaster、RegionServer、Region、HFile集群配置:CPU: 8~24核、电源: 恒定,散热好、内存:8~48...原创 2018-11-21 09:51:10 · 230 阅读 · 0 评论 -
分布式协调服务ZooKeeper
分布式协调服务ZooKeeper分布式协调服务是分布式应用中不可缺少的,通常担任协调角色,比如leader选举、负载均衡、服务发现、分布式队列和分布式锁Zookeeper数据模型:一、层级命名空间1、data:每个znode拥有一个数据域,记录用户数据,该节点的数据类型为字节数组;2、type:zonde类型,具体分为persistent(持久化节点)、ephemeral(临时节...原创 2018-11-21 11:15:52 · 178 阅读 · 0 评论 -
资源管理与调度系统YARN
YARN作为一个通用的资源管理系统,目标是将短作业和长服务混合部署到一个集群中,并为他们提供统一的资源管理和调度功能,概括起来主要解决以下两个问题:1.提高集群资源利用率,2.服务自动化部署。一、YARN的基本架构:YARN总体上采用master/slave架构,ResourceManager为master,NodeManager为slave,ResourceManager负责对各个Nod...原创 2018-11-21 17:27:21 · 939 阅读 · 0 评论 -
企业级大数据技术框架(六层大数据技术体系)
1、数据收集层:分布式、异构性、多样化、流式产生主要由关系型和非关系型数据收集组件,分布式消息队列构成。Sqoop/Canal:关系型数据收集和导入工具,是连接关系型数据库和Hadoop的桥梁,Sqoop可将关系型数据库的数据全量导入Hadoop,反之亦然。而Canal可用于实时数据的增量导入Flume:非关系型数据收集工具,主要是流式日志数据,可近实时收集,经过滤,聚集后加载到HDF...原创 2018-11-19 13:32:52 · 3895 阅读 · 1 评论 -
批处理引擎MapReduce
MapReduce是一个典型的分布式批处理引擎,具有良好的扩展性与容错性以及高吞吐率等。编程思想:核心思想是分而治之,即将一个分布式计算过程拆解成两个阶段,Map阶段和Reduce阶段。MapReduce的编程组件:1.Mapper:Mapper中封装了应用程序的数据处理逻辑,为了简化接口,MapReduce要求所有存储在底层分布式文件系统上的数据均要解释成<key,value&...原创 2018-11-22 12:44:28 · 1185 阅读 · 0 评论 -
大数据存储HDFS详解
数据序列化FaceBook Thrift(具体序列化和RPC两个功能)、Google Protocol Buffers(ProtoBuf)(只有序列化功能,不具备RPC功能)、Apache Avro(具体序列化和RPC两个功能)序列化框架对比: 解析速度 时间由小到大:protobuf、thrift、Avro 序列化大小,由小到...原创 2018-11-20 15:26:34 · 6733 阅读 · 0 评论