大数据
weixin_40954107
这个作者很懒,什么都没留下…
展开
-
Presto 使用 Alluxio
Presto是一个开源的分布式 SQL 查询引擎,用于对数据进行大规模的交互式分析查询。 本指南介绍了如何使用 Alluxio 作为分布式缓存层运行 Presto 进行查询,其中数据源可以是 AWS S3、Azure Blob Store、HDFS 和许多其他数据源。 使用此设置,Alluxio 将帮助 Presto 访问数据(不论是何数据源),并透明地将频繁访问的数据(例如,常用的表)缓存到 ...转载 2019-12-15 22:48:18 · 757 阅读 · 0 评论 -
Alluxio简介及安装
一.Alluxio概述Alluxio(前身Tachyon)是世界上第一个以内存为中心的虚拟的分布式存储系统。它统一了数据访问的方式,为上层计算框架和底层存储系统构建了桥梁。Alluxio项目源自加州大学伯克利分校AMPLab,作为伯克利数据分析堆栈(BDAS)的数据访问层。Alluxio是增长最快的开源项目之一,吸引了来自300多家机构的1000多名贡献者,包括阿里巴巴,Alluxio,百...转载 2019-12-15 22:38:17 · 1338 阅读 · 0 评论 -
有赞数据仓库元数据系统实践
有赞数据仓库背景业务系统使用mysql数据库,有统一的DDL规范和SQL规范 数据仓库基于Hive构建 业务快速变化,员工数量持续增加第一版:手工维护的表格在有赞大数据平台发展初期,业务量不大,开发者对业务完全熟悉,从ETL到统计分析都可以轻松搞定,当时没有想过要做一个元数据系统。随着公司规模扩大,开始有专职的数据分析师,作为大数据平台的新用户,希望能够记录和查看核心表的信息。最...转载 2019-11-29 11:32:10 · 374 阅读 · 0 评论 -
Jupyter再开发-美团民宿的应用实践
前言做算法的同学对于Kaggle应该都不陌生,除了举办算法挑战赛以外,它还提供了一个学习、练习数据分析和算法开发的平台。Kaggle提供了Kaggle Kernels,方便用户进行数据分析以及经验分享。在Kaggle Kernels中,你可以Fork别人分享的结果进行复现或者进一步分析,也可以新建一个Kernel进行数据分析和算法开发。Kaggle Kernels还提供了一个配置好的环境,以及...转载 2019-11-29 10:04:16 · 733 阅读 · 0 评论 -
数据库分库分表思路
一. 数据切分关系型数据库本身比较容易成为系统瓶颈,单机存储容量、连接数、处理能力都有限。当单表的数据量达到1000W或100G以后,由于查询维度较多,即使添加从库、优化索引,做很多操作时性能仍下降严重。此时就要考虑对其进行切分了,切分的目的就在于减少数据库的负担,缩短查询时间。数据库分布式核心内容无非就是数据切分(Sharding),以及切分后对数据的定位、整合。数据切分就是将数据分散存...转载 2019-11-12 10:38:02 · 379 阅读 · 0 评论 -
Zeus资源调度系统介绍
摘要:本文主要概述阿里巴巴Zeus资源调度系统的背景和实现思路。 本文主线:问题、解决方案、依赖基础知识、工程实践、目标、经验分享。立足企业真实问题、常规解决策略,引出依赖的容器技术、实践方案,所有这些落实到工程实践,要解决那些问题、实现哪些目标、技术大趋势的影响。最后给出阿里巴巴的实践经验。本序列文章并不是突出架构上重大突破,毕竟这个领域已经发展了10多年了。而是,实践过程中的一些细节、一些特...转载 2019-11-11 21:38:04 · 786 阅读 · 0 评论 -
美团点评酒旅数据仓库建设实践
在美团点评酒旅事业群内,业务由传统的团购形式转向预订、直连等更加丰富的产品形式,业务系统也在迅速的迭代变化,这些都对数据仓库的扩展性、稳定性、易用性提出了更高要求。对此,我们采取了分层次、分主题的方式,本文将分享这一过程中的一些经验。技术架构随着美团点评整体的系统架构调整,我们在分层次建设数据仓库的过程中,不断优化并调整我们的层次结构,下图展示了技术架构的变迁。Hotel dw l...转载 2019-11-11 21:32:35 · 252 阅读 · 0 评论 -
携程大数据实践:高并发应用架构及推荐系统案例
本文来自携程技术中心基础业务研发部的《应用架构涅槃》系列分享。据基础业务研发部负责人李小林介绍,互联网二次革命的移动互联网时代,如何吸引用户、留住用户并深入挖掘用户价值,在激烈的竞争中脱颖而出,是各大电商的重要课题。通过各类大数据对用户进行研究,以数据驱动产品是解决这个课题的主要手段,携程的大数据团队也由此应运而生;经过几年的努力,大数据的相关技术为业务带来了惊人的提升与帮助。以基础大数据的用户...转载 2019-11-11 21:28:25 · 693 阅读 · 0 评论 -
Canal+Camus快速采集MySQL Binlog到数据仓库
数据仓库的同步方法我们的数据仓库长久以来一直使用天级别的离线同步方法:采用Sqoop或DataX按天定时获取各个MySQL表的全量或增量数据,然后载入到Hive里对应的各个表中。这种方法门槛低,容易操作,在数仓建设阶段能够快速启动。但是随着时间的推移,它暴露出了一些缺点:从MySQL获取数据只能靠select,如果一次select数据量过大,会造成慢查询,甚至影响线上业务; 随着业务量的...转载 2019-11-06 20:15:16 · 2105 阅读 · 1 评论 -
敏捷型数据仓库的构建及其应用
前言互联网公司一般发展迅速. 一方面, 业务飞速发展, 当前应用的形式和模型每天都在变化; 企业的产品也在经历不断的下线上线过程. 数据仓库如何拥抱变化, 是难点之一.互联网的运营人员从了解经营状况转化为精细化运营, 这就于要求数据仓库具有提供高效明细数据能力, 数据仓库如何在庞大数据量的前提下, 实现满足不同层次的数据提出和分析, 是难点之二.数据经过ETL最终到达使用数据者手里; ...转载 2019-11-01 08:54:46 · 3910 阅读 · 0 评论 -
SnappyData与Presto,Druid,Kylin,ES的对比-2
OLAP简介On-Line Analytical Processing,简称OLAP,即联机分析处理,其主要的功能在于方便大规模数据分析及统计计算,对决策提供参考和支持。OLAP发展到现在的阶段,很多的查询分析需求具有以下4种显著的特点: 1234 1、数据量大2、高速响应3、灵活交互4、多维分析 根据存储类型,OLA...转载 2019-10-30 15:00:54 · 1783 阅读 · 0 评论 -
开源OLAP引擎测评报告-Hive、Sparksql、Presto、Impala、Hawq等对比
导读现在大数据组件非常多,众说不一,在每个企业不同的使用场景里究竟应该使用哪个引擎呢?这是易观Spark实战营出品的开源Olap引擎测评报告,团队选取了Hive、Sparksql、Presto、Impala、Hawq、Clickhouse、Greenplum大数据查询引擎,在原生推荐配置情况下,在不同场景下做一次横向对比,供大家参考。每年易观都会发布一次这样的大数据开源测评报告,欢迎...转载 2019-10-29 09:20:11 · 829 阅读 · 0 评论 -
美团DB数据同步到数据仓库的架构与实践
背景在数据仓库建模中,未经任何加工处理的原始业务层数据,我们称之为ODS(Operational Data Store)数据。在互联网企业中,常见的ODS数据有业务日志数据(Log)和业务DB数据(DB)两类。对于业务DB数据来说,从MySQL等关系型数据库的业务数据进行采集,然后导入到Hive中,是进行数据仓库生产的重要环节。如何准确、高效地把MySQL数据同步到Hive中?一般常用的解...转载 2019-10-28 11:19:16 · 130 阅读 · 0 评论 -
增长的接力棒——从营业收入拆解看商业模式
深度好文收藏 零、G兽的困惑 在财务分析的时候,G兽曾经是胡乱地扒研报来看,也曾经自己写过一点投资分析。当时做恒瑞医药分析的时候,营业收入和净利润增长速度计算了,企业毛利率和净利率也计算了,包括企业净利润对应着的经营现金流净额也做出了一定分析。乍眼一看,恒瑞医药可以说是一家高增长,能盈利,盈利能回来的现金流质量还不错的企业。另外,研发支出、研发团队和海外欧美销售收入乃至股权激励等代...转载 2019-10-22 14:29:02 · 2317 阅读 · 0 评论