![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据仓库
weixin_40954107
这个作者很懒,什么都没留下…
展开
-
有赞数据仓库元数据系统实践
有赞数据仓库背景业务系统使用mysql数据库,有统一的DDL规范和SQL规范 数据仓库基于Hive构建 业务快速变化,员工数量持续增加第一版:手工维护的表格在有赞大数据平台发展初期,业务量不大,开发者对业务完全熟悉,从ETL到统计分析都可以轻松搞定,当时没有想过要做一个元数据系统。随着公司规模扩大,开始有专职的数据分析师,作为大数据平台的新用户,希望能够记录和查看核心表的信息。最...转载 2019-11-29 11:32:10 · 335 阅读 · 0 评论 -
数据库分库分表思路
一. 数据切分关系型数据库本身比较容易成为系统瓶颈,单机存储容量、连接数、处理能力都有限。当单表的数据量达到1000W或100G以后,由于查询维度较多,即使添加从库、优化索引,做很多操作时性能仍下降严重。此时就要考虑对其进行切分了,切分的目的就在于减少数据库的负担,缩短查询时间。数据库分布式核心内容无非就是数据切分(Sharding),以及切分后对数据的定位、整合。数据切分就是将数据分散存...转载 2019-11-12 10:38:02 · 358 阅读 · 0 评论 -
Zeus资源调度系统介绍
摘要:本文主要概述阿里巴巴Zeus资源调度系统的背景和实现思路。 本文主线:问题、解决方案、依赖基础知识、工程实践、目标、经验分享。立足企业真实问题、常规解决策略,引出依赖的容器技术、实践方案,所有这些落实到工程实践,要解决那些问题、实现哪些目标、技术大趋势的影响。最后给出阿里巴巴的实践经验。本序列文章并不是突出架构上重大突破,毕竟这个领域已经发展了10多年了。而是,实践过程中的一些细节、一些特...转载 2019-11-11 21:38:04 · 733 阅读 · 0 评论 -
美团点评酒旅数据仓库建设实践
在美团点评酒旅事业群内,业务由传统的团购形式转向预订、直连等更加丰富的产品形式,业务系统也在迅速的迭代变化,这些都对数据仓库的扩展性、稳定性、易用性提出了更高要求。对此,我们采取了分层次、分主题的方式,本文将分享这一过程中的一些经验。技术架构随着美团点评整体的系统架构调整,我们在分层次建设数据仓库的过程中,不断优化并调整我们的层次结构,下图展示了技术架构的变迁。Hotel dw l...转载 2019-11-11 21:32:35 · 216 阅读 · 0 评论 -
携程大数据实践:高并发应用架构及推荐系统案例
本文来自携程技术中心基础业务研发部的《应用架构涅槃》系列分享。据基础业务研发部负责人李小林介绍,互联网二次革命的移动互联网时代,如何吸引用户、留住用户并深入挖掘用户价值,在激烈的竞争中脱颖而出,是各大电商的重要课题。通过各类大数据对用户进行研究,以数据驱动产品是解决这个课题的主要手段,携程的大数据团队也由此应运而生;经过几年的努力,大数据的相关技术为业务带来了惊人的提升与帮助。以基础大数据的用户...转载 2019-11-11 21:28:25 · 642 阅读 · 0 评论 -
Canal+Camus快速采集MySQL Binlog到数据仓库
数据仓库的同步方法我们的数据仓库长久以来一直使用天级别的离线同步方法:采用Sqoop或DataX按天定时获取各个MySQL表的全量或增量数据,然后载入到Hive里对应的各个表中。这种方法门槛低,容易操作,在数仓建设阶段能够快速启动。但是随着时间的推移,它暴露出了一些缺点:从MySQL获取数据只能靠select,如果一次select数据量过大,会造成慢查询,甚至影响线上业务; 随着业务量的...转载 2019-11-06 20:15:16 · 2011 阅读 · 1 评论 -
敏捷型数据仓库的构建及其应用
前言互联网公司一般发展迅速. 一方面, 业务飞速发展, 当前应用的形式和模型每天都在变化; 企业的产品也在经历不断的下线上线过程. 数据仓库如何拥抱变化, 是难点之一.互联网的运营人员从了解经营状况转化为精细化运营, 这就于要求数据仓库具有提供高效明细数据能力, 数据仓库如何在庞大数据量的前提下, 实现满足不同层次的数据提出和分析, 是难点之二.数据经过ETL最终到达使用数据者手里; ...转载 2019-11-01 08:54:46 · 3851 阅读 · 0 评论 -
有赞埋点实践
一、前言大数据应用一般会有采集、加工、存储、计算及可视化这几个环节。其中采集做为源头,在确保全面、准确、及时的前提下,最终加工出来的指标结果才是有价值的。而埋点作为一种重要的采集手段,可以将用户行为信息转化为数据资产,为产品分析、业务决策、广告推荐等提供可靠的流量数据支持。在业务需求少的情况下,可以运用一些简单的方法快速采集用户行为。但如果业务线、终端众多,数据需求多样,就需要设...转载 2019-10-31 22:00:38 · 1697 阅读 · 1 评论 -
SnappyData与Presto,Druid,Kylin,ES的对比-2
OLAP简介On-Line Analytical Processing,简称OLAP,即联机分析处理,其主要的功能在于方便大规模数据分析及统计计算,对决策提供参考和支持。OLAP发展到现在的阶段,很多的查询分析需求具有以下4种显著的特点: 1234 1、数据量大2、高速响应3、灵活交互4、多维分析 根据存储类型,OLA...转载 2019-10-30 15:00:54 · 1741 阅读 · 0 评论 -
MySQL Binlog实用攻略
1.概述binlog是Mysql sever层维护的一种二进制日志,与innodb引擎中的redo/undo log是完全不同的日志;其主要是用来记录对mysql数据更新或潜在发生更新的SQL语句,并以”事务”的形式保存在磁盘中;作用主要有:[x] 复制:MySQL Replication在Master端开启binlog,Master把它的二进制日志传递给slaves并回放来达到mas...转载 2019-10-30 09:11:10 · 106 阅读 · 0 评论 -
MySQL 数据库设计总结
规则1:一般情况可以选择MyISAM存储引擎,如果需要事务支持必须使用InnoDB存储引擎。注意:MyISAM存储引擎 B-tree索引有一个很大的限制:参与一个索引的所有字段的长度之和不能超过1000字节。另外MyISAM数据和索引是分开,而InnoDB的数据存储是按聚簇(cluster)索引有序排列的,主键是默认的聚簇(cluster)索引,因此MyISAM虽然在一般情况下,查询性能比In...转载 2019-10-30 08:56:53 · 129 阅读 · 0 评论 -
MySQL 索引及查询优化总结
一个简单的对比测试前面的案例中,c2c_zwdb.t_file_count表只有一个自增id,FFileName字段未加索引的sql执行情况如下:在上图中,type=all,key=null,rows=33777。该sql未使用索引,是一个效率非常低的全表扫描。如果加上联合查询和其他一些约束条件,数据库会疯狂的消耗内存,并且会影响前端程序的执行。这时给FFileName字段添加一个...转载 2019-10-30 08:49:59 · 81 阅读 · 0 评论 -
美团DB数据同步到数据仓库的架构与实践
背景在数据仓库建模中,未经任何加工处理的原始业务层数据,我们称之为ODS(Operational Data Store)数据。在互联网企业中,常见的ODS数据有业务日志数据(Log)和业务DB数据(DB)两类。对于业务DB数据来说,从MySQL等关系型数据库的业务数据进行采集,然后导入到Hive中,是进行数据仓库生产的重要环节。如何准确、高效地把MySQL数据同步到Hive中?一般常用的解...转载 2019-10-28 11:19:16 · 113 阅读 · 0 评论 -
OneData建设探索之路:美团SaaS收银运营数仓建设
背景随着业务的发展,频繁迭代和跨部门的垂直业务单元变得越来越多。但由于缺乏前期规划,导致后期数仓出现了严重的数据质量问题,这给数据治理工作带来了很大的挑战。在数据仓库建设过程中,我们总结的问题包括如下几点:缺乏统一的业务和技术标准,如:开发规范、指标口径和交付标准不统一。 缺乏有效统一的数据质量监控,如:列值信息不完整和不准确,SLA时效无法保障等。 业务知识体系散乱不集中,导致不同研...转载 2019-10-28 09:43:34 · 581 阅读 · 0 评论 -
在MYSQL下解决-连续登陆天数大于N天的用户明细 并与窗口函数对比
本文是本人原创,转载请注明链接!在MYSQL不能运用窗口函数,要解决连续访问或登陆用户的计算还是要费些工夫的。/*选出用户 连续登陆天数最多天数 */SELECT *FROM (SELECT * FROM ( SELECT uid, max(days) lianxu_days,#最大连续天数 min(login_d...原创 2019-10-14 21:19:08 · 3471 阅读 · 0 评论