- 博客(6)
- 资源 (1)
- 收藏
- 关注
翻译 大数据开发之Druid数据查询
1 Druid数据查询1.1:查询组件介绍在介绍具体的查询之前,我们先来了解一下各种查询都会用到的基本组件,如Filter,Aggregator,Post-Aggregator,Query,Interval等,每种组件都包含很多的细节1.1.1 FilterFilter就是过滤器,在查询语句中就是一个JSON对象,用来对维度进行筛选和过滤,表示维度满足Filter的行是我们需要的数据,类似...
2019-09-28 17:14:11 3054
转载 Spark 数据全局排序实现以及RangePartitioner的使用示例
Spark 数据全局排序实现以及RangePartitioner的使用示例2017年09月13日 17:20:35javartisan阅读数 2612转自链接:https://blog.csdn.net/Dax1n/article/details/77968427使用Java 随机数类随机生成0到Integer.MAX_VALUE之间的10GB文件,然后使用Spark计算框架进行全...
2019-09-27 10:43:14 1382
原创 大数据开发之工作流调度器azkaban
2.1 概述azkaban官网:https://azkaban.github.io/2.1.1为什么需要工作流调度系统一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,java程序,mapreduce程序、hive脚本等各任务单元之间存在时间先后及前后依赖关系 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行;例如,我们可能有...
2019-09-26 08:30:20 346
原创 大数据开发之数据仓库介绍
1.数据仓库的基本概念数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。它出于分析性报告和决策支持目的而创建。数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。...
2019-09-25 07:49:16 856
原创 大数据开发之hadoop简介及架构模型
1、hadoop的介绍以及发展历史1.Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。2.2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。——分布式文件系统(GFS),可用于处理海量网页的存储——分布...
2019-09-23 07:53:47 716
翻译 大数据开发之druid介绍
1:druid介绍1.1 druid是什么Druid的母公司MetaMarket在2011年以前也是Hadoop的拥趸者,但是在高并发环境下,Hadoop并不能对数据可用性以及查询性能给出产品级别的保证,使得MetaMarket必须去寻找新的解决方案,当尝试使用了各种关系型数据库以及NoSQL产品后,他们觉得这些已有的工具都不能解决他们的“痛点”,所以决定在2011年开始研发自己的“轮子”...
2019-09-08 16:49:53 2402
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人