大数据
文章平均质量分 92
大数据时代
童话ing
放弃不难,但坚持一定很酷。
展开
-
【大数据】Presto开发自定义聚合函数
Presto 在交互式查询任务中担当着重要的职责。随着越来越多的人开始使用 SQL 在 Presto 上分析数据,我们发现需要将一些业务逻辑开发成类似 Hive 中的 UDF,提高 SQL 使用人员的效率,同时也保证 Hive 和 Presto 环境中的 UDF 统一。1、Presto函数介绍在此之前先简单介绍下UDF和UDAF,UDF叫做用户自定义函数,而UDAF叫做用户自定义聚合函数,区别就在于UDF不会保存状态,一行输入一行输出,而UDAF会涉及到状态的保存,通过聚合多个节点的数据来转换为最终的输原创 2021-10-06 11:15:46 · 1487 阅读 · 0 评论 -
【大数据】即席查询引擎Presto简单介绍
在文章OLTP和OLAP,数据库和数据仓库中我们了解了OLAP和OLTP以及数据库数据仓库的区别,本文主要最大数据下的即席查询引擎presto进行介绍。在OLAP中,查询通常分为固化查询和即席查询:即席查询:通过手写sql完成一些临时的数据分析需求,这类sql形式多变、逻辑复杂,对查询时间没有严格要求。固化查询:指的是一些固化下来的取数、看数需求,通过数据产品的形式提供给用户,从而提高数据分析和运营的效率。这类的sql固定模式,对响应时间有较高要求。Presto是由Facebook开源的一个分布原创 2021-10-05 19:59:25 · 2405 阅读 · 0 评论 -
【大数据】OLTP和OLAP,数据库和数据仓库
在接触大数据之前我们基本都是使用mysql数据库,这种定位为关系型的数据库主要是为了业务需要而建表,而在大数据中大多是以分析为主的,读多写少,且如果用传统的关系型数据库则经常会涉及到多表联合查询,因此这种关系型数据库并不适用于分析场景,在这之前我们来看两个概念,方便进行过渡。一、OLTP和OLAP是什么?OLTP,也叫联机事务处理(Online Transaction Processing),表示事务性非常高的系统,一般都是高可用的在线系统,以小的事务以及小的查询为主,评估其系统的时候,一般看其每秒执行原创 2021-10-05 16:23:53 · 4055 阅读 · 0 评论 -
Windows下编译Presto源码的坑
一、前言最近在做将impala的C++代码转为presto的udaf的工作,对其他功能模块都进行测试之后,最后剩下对presto udaf的测试了,一般来说,都是通过presto-spi插件打包到presto的plugin目录下,重启presto进行测试,奈何这种效率比较低下,涉及到插件打包、重启presto、测试、修改、…可能写的时候写得好一下就成功了,开发过程中难免都会有一些问题,因此,这种方式不适合,在导师提醒下,去拉取公司仓库中的presto编译之后进行测试,就这个编译公司的presto就遇到很多原创 2021-09-16 16:55:38 · 1262 阅读 · 0 评论 -
elastic-job VS xxl-job
1、Elastic-job介绍Elastic-job 是由当当网基于quartz 二次开发之后的分布式调度解决方案 , 由两个相对独立的子项目Elastic-Job-Lite和Elastic-Job-Cloud组成 。Elastic-Job-Lite定位为轻量级无中心化解决方案,使用jar包的形式提供分布式任务的协调服务。(最新版本为V3.0.0) Elastic-job主要的设计理念是无中心化的分布式定时调度框架,思路来源于Quartz的基于数据库的高可用方案。但数据库没有分布式协调功能,所以在高可用方原创 2021-07-16 15:55:22 · 5803 阅读 · 0 评论