3.大数据技术
文章平均质量分 88
Coder李海波
这个作者很懒,什么都没留下…
展开
-
京东开源RaftKeeper性能超越ZooKeeper!
RaftKeeper提供2倍以上的吞吐量和容量,突破了分布式系统协调服务的处理能力限制,延迟时间减半,请求更加平稳,资源消耗更低,在性能要求更高的场景中表现更优异。在ClickHouse应用ZooKeeper的场景中,因无法突破高吞吐写入和低延时数据复制的瓶颈,京东零售智能平台部OLAP团队基于ClickHouse研发RaftKeeper(采用Raft协议C++实现的分布式共识服务)。原创 2023-04-17 10:31:32 · 619 阅读 · 1 评论 -
Apache Doris和ClickHouse的深度分析
2021-10-13背景介绍Apache Doris是由百度贡献的开源MPP分析型数据库产品,亚秒级查询响应时间,支持实时数据分析;分布式架构简洁,易于运维,可以支持10PB以上的超大数据集;可以满足多种数据分析需求,例如固定历史报表,实时数据分析,交互式数据分析和探索式数据分析等。ClickHouse是俄罗斯的搜索公司Yadex开源的MPP架构的分析引擎,号称比事务数据库块100-1000倍,团队有计算机体系结构的大牛,最大的特色是高性能的向量化执行引擎,而且功能丰富、可靠性高。京转载 2021-10-20 13:32:13 · 5393 阅读 · 0 评论 -
京东OLAP亿级查询高可用实践(转)
https://wemp.app/posts/4a0cffbf-63e7-4592-8efa-6e47f8f58d32OLAP(On-Line Analytical Processing)是联机分析处理,它主要用于支持企业决策和经营管理,是许多报表、商业智能和分析系统的底层支撑组件,支持从海量数据中快速获取数据指标。京东OLAP的发展历经Druid、Kylin、Doris和ClickHouse,广泛服务于京东各个子集团和各类场景中,经历了数次大促的考验无事故,本文会重点以ClickHou转载 2021-10-09 10:50:25 · 430 阅读 · 0 评论 -
TPC-DS用于Clickhouse和Doris性能测试
大致介绍TPC-DS采用星型、雪花型等多维数据模式。它包含7张事实表,17张纬度表平均每张表含有18列。其工作负载包含99个SQL查询,覆盖SQL99和2003的核心部分以及OLAP。这个测试集包含对大数据集的统计、报表生成、联机查询、数据挖掘等复杂应用,测试用的数据和值是有倾斜的,与真实数据一致。可以说TPC-DS是与真实场景非常接近的一个测试集,也是难度较大的一个测试集。Clickhous...原创 2020-05-07 16:27:51 · 7279 阅读 · 6 评论 -
Clickhouse在Docker中的编译、安装和集群部署
Clickhouse是俄罗斯Yandex公司开源的OLAP系统,单表性能最好,最近两年发展很快。百度开源的Doris是另外一个,我上次记录了百度开源OLAP系统Apache Doris在Centos7.0下编译和安装。Clickhouse官网Clickhouse GitHub地址Doris官网Doris GitHub地址这两个系统因为源码编译和安装比较麻烦,估计很多人会卡在这一步,不利...原创 2020-04-29 19:40:03 · 2530 阅读 · 0 评论 -
百度开源OLAP系统Apache Doris在Centos7.0下编译和安装
Doris是百度2017年开源的OLAP系统,能够支撑10P级的数据规模,每天几百亿条写入量,秒级百亿条查询,在数据查询、报表BI、用户行为分析系统,甚至交互式分析中广泛应用。 官方文档:http://doris.apache.org/ github地址:https://github.com/apache/incubator-doris 但是因为系统很庞大,结...原创 2020-03-29 21:38:05 · 3781 阅读 · 0 评论 -
数据挖掘十大经典算法
一、C4.5 C4.5,是机器学习算法中的一个分类决策树算法,它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法ID3的改进算法,所以基本上了解了一半决策树构造方法就能构造它。决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。二、The k-means algorithm即K-Means算法 k-means转载 2014-09-23 17:06:00 · 2375 阅读 · 0 评论