技术比较
文章平均质量分 80
for your wish
好记性不如烂笔头。个人笔记用的博客
展开
-
Iceberg构建数据湖
Iceberg核心思想 在时间轴上根据快照跟踪表数据的修改特性: 优化数据入库流程可以merge 与上层引擎解耦,不绑定spark 统一数据存储,灵活文件组织 增量读取能力实现细节: 快照设计: 每次读写更新生成快照,写会生成新的隔离快照,并在写完后原子性提交 对文件列表的所有修改都是原子操作 在分区中追加...原创 2021-09-20 20:33:58 · 1127 阅读 · 0 评论 -
数据湖:Hudi构建中台
Hudi和DaltaLake对spark强绑定,建议使用Saprk。用Flink的话可能要改源码三个开源数据湖技术:都支持多数据格式,流批一体,acid语义保证,支持table schema delta:绑定了spark(一家公司),功能不完善 hudi:在spark在2.4.3后可以和spark分开,现在也能支持python了。 对flink支持不是特别好 iceberg:抽象程度高,灵活,支持...原创 2021-09-20 00:24:33 · 660 阅读 · 0 评论 -
数据湖介绍,解决数仓痛点
数据处理流程 数据采集-清洗-存储-计算-分析-应用(最重要的是存储和计算最重要)原创 2021-09-19 20:57:26 · 1388 阅读 · 0 评论 -
DorisDB和各OLAP对比
DorisDB:新⼀代极速MPP数据库极速SQL查询• 全新的向ᰁ化执⾏引擎,亚秒级查询延时,单节 点每秒可处理多达100亿⾏数据。• 强⼤的MPP执⾏框架,⽀持星型模型和雪花模型 • 综合查询速度⽐其他产品快10—100倍!实时数据分析• 新型存储引擎,⽀持⼤规模数据实时写⼊,秒级 实时性保证• 新型读写并发管理模式,保证实时写⼊数据不会 影响线上查询。⾼并发查询• 灵活的资源分配策略,每秒可⽀持⾼达1万以上的 并发查询。• 有效⽀持数千⽤户同时进⾏数据分析轻松管理原创 2021-07-05 20:54:08 · 742 阅读 · 0 评论 -
ClickHouse企业应用实战(2)
本文主要讲解 ClickHouse 的一些典型分析应用案例,重点就是告诉,一些大厂在做技术选型的时候,也就是因为 ClickHouse 的这些特点才使用的。 下面主要内容大致如下:分组前几函数 TopK窗口分析函数同比环比漏斗分析 windowFunnel如何利用 clickhouse 实现去重ClickHouse 整合 BitMapClickHouse 介绍和适用场景 ClickHouse 是“战斗民族”俄罗斯搜索巨头 Yandex 公司开源的一个极...原创 2021-07-01 16:15:44 · 593 阅读 · 0 评论 -
ClickHouse介绍安装和工作原理(1)
ClickHouse介绍 ClickHouse 是一个用于联机分析 (OLAP) 的列式数据库管理系统 (DBMS)。 ClickHouse 官网:https://clickhouse.tech/,它具有 ROLAP、在线实时查询、完整的 DBMS 功能支持、列式存储、不需要任何数据预处理、支持批量更新、拥有非常完善的 SQL 支持和函数、支持高可用、不依赖 Hadoop 复杂生态、开箱即用等许多特点。 在 1 亿数据集体量的情况下,ClickHouse 的平均响应速度是 Verti...原创 2021-06-29 14:13:53 · 436 阅读 · 0 评论 -
OLAP:Kylin or ClickHouse
Apache Kylin 和 ClickHouse 都是目前市场流行的大数据 OLAP 引擎;Kylin 最初由 eBay 中国研发中心开发,2014 年开源并贡献给 Apache 软件基金会,凭借着亚秒级查询的能力和超高的并发查询能力,被许多大厂所采用,包括美团,滴滴,携程,贝壳找房,腾讯,58同城等;OLAP 领域这两年炙手可热的 ClickHouse,由俄罗斯搜索巨头 Yandex 开发,于2016年开源,典型用户包括字节跳动、新浪、腾讯等知名企业。这两种 OLAP 引擎有什么差异,各自有什么转载 2021-04-29 11:23:59 · 280 阅读 · 0 评论 -
比较impala,SparkSql,Hive以及交互式查询,OLAP概念
交互式查询:商业智能,对比于批量查询原创 2020-07-09 17:26:56 · 554 阅读 · 0 评论 -
比较MongoDB,ES,Redis,Hbase
大数据时代MongoDB、ES、Redis、HBase这四种数据库你应该懂数据库对互联网开发的重要性就不必多说了。作为大数据和AI时代的互联网er,如果你还是只懂MySQL,那你可就火星大发了。下面给大家总结下每个互联网er都必须懂的几种数据库产品:MongoDBMongoDB是当今最火爆的NoSQL数据库。MongoDB最早在09年发布,算得上是早期大数据时代的数据库代表作了。随着Mon...转载 2019-07-18 10:11:25 · 695 阅读 · 0 评论 -
DB2,Mysql,Oracle数据库比较以及Oracle的存储过程
DB2适用于数据集较大的分析,oracle适用于事务处理Oracle的物理复制数据在大数据场景下很无力,几个G几十个G的复制,大事务很差而mysql是逻辑复制,binlog日志存储过程依赖于数据库,不依赖于表。这些存储过程都要先执行一遍才能调用。执行:不单单是exec一下,还是得分情况:1.如果是命令窗口就用exec 存储过程名,举个例子: 1 ...转载 2019-05-16 10:00:53 · 907 阅读 · 0 评论