大数据
文章平均质量分 76
BigDataMK
这个作者很懒,什么都没留下…
展开
-
Doris FE启动流程源码解读
Doris中FE主要负责接收和返回客户端请求、元数据以及集群管理、查询计划生成等工作。本文主要看一下Doris的fe在启动时做了什么。原创 2023-06-19 10:03:08 · 1052 阅读 · 0 评论 -
PG系列数据库TPCH测试文档
postgresql 语法的数据库通用TPCH测试流程原创 2022-11-14 18:00:55 · 1138 阅读 · 1 评论 -
StarRocks 自增ID实现分页优化
目前StarRocks在不支持自增ID的情况下,对于明细模型的分页查询场景,由于要保证每一次分页查询出来的数据的唯一性,需要我们人为去指定order by的列,无法利用到StarRocks自身的排序键等特性,造成分页查询场景下,性能并不是很好。有没有一种替代方案能够在外部实现一种自增id,保证每个批次提交的数据都比之前批次的数据的ID大,同时,该ID具有唯一性。并且是一个友好的数据类型(数值型),用来做明细模型的第一列,利用StarRocks的排序键来为分页场景加速。原创 2022-09-13 14:09:34 · 3112 阅读 · 0 评论 -
flinkCDC数据同步之 postgresql to starrocks
flinkCDC数据同步之 postgresql to starrocks原创 2022-08-24 17:35:14 · 1600 阅读 · 2 评论 -
MatrixKV产品体验
MatrixKV是一个简单的分布式强一致KV存储系统,采用Pebble作为底层的存储引擎,MatrixCube作为分布式组件,以及自定义了最简单的读写请求接口。用户可以非常简单的在任意一个节点发起读写数据的请求,也可以从任意一个节点读到需要的数据。本次体验以Docker模拟一个小型MatrixKV集群的形式,来进一步体验MatrixCube的功能与运作机制。...原创 2022-07-09 16:06:21 · 278 阅读 · 1 评论 -
数据库内核学习总结
数据库内核原创 2022-03-16 14:35:26 · 2962 阅读 · 0 评论 -
StarRocks FE开发环境搭建
StarRocks FE开发环境(IDEA)搭建前言该文档基于starrocks官方提供的docker镜像,为大家提供在IDEA上进行FE的开发环境搭建,方便大家进行源码的阅读或者参与到starrocks的开发中。编译镜像地址https://hub.docker.com/r/starrocks/dev-env编译环境准备系统: centos7.6内存: 大于4G磁盘空间: 大于30GCPU: 核数大于2core,编译时核数越多,相对会越快编译步骤1. 下载docker(已原创 2021-10-08 15:04:55 · 1706 阅读 · 0 评论 -
greenplum 6.7安装文档
greenplum 6.7安装文档资源规划资源准备1.系统版本:CentOS Linux release 7.7.1908 (Core)2.greenplum:greenplum-db-6.7.0-rhel7-x86_64.rpm3.此处采用了三台机器。分别为doris01,doris02,doris034.建议每个segment资源给到8G-16G,或者根据机器核数设置(如果segment主机有两个双核处理器,则每个主机可能有两个或四个segment)。角色划分1.master:dor原创 2021-08-30 14:53:36 · 292 阅读 · 0 评论 -
浅谈Hadoop体系和MPP体系
浅谈Hadoop体系和MPP体系引言如题,在大数据发展至今,为了应对日益繁多的数据分析处理,和解决客户各种奇思妙(怪)想需求,形形色色的大数据处理的框架和对应的数据存储手段层出不穷。有老当益壮的Hadoop体系,依靠Hadoop巨大的社区生态支撑,加上各种开源(白嫖)组件的组合,其通用性,易用性,对于很多数据量不是很大,同时不那么追求极致性能的公司很友好。同时还有各种各样的MPP大规模并行计算框架,去应付巨量数据的分析处理。下面就简单的说一说笔者在工作中对于这两者的一些使用感受,给大家提供一些思路原创 2021-02-02 18:01:32 · 3753 阅读 · 2 评论 -
大数据分析利器——clickhouse的简介与应用
大数据分析利器——clickhouse的简介与应用背景介绍 公司原有的数仓技术架构是基于传统的Hadoop的数仓体系,使用任务调度,通过不同的hive的任 务调度解决不同的业务主题。传统的数仓架构胜在稳定,依托于Hadoop体系,使用的用户也较 多。但是也存在以下的缺点:1. 实时性:实时性较低,基于T+1的数据导入限制,通常hive的整个数据从数据源头到最后的数据应用,中间的时间跨度基本都在几个小时到一天,数据的实时性达不到业务的需求,业务端会想要尽快的知道他想要知道的结果。2. 便捷性:原原创 2020-06-17 11:48:12 · 4890 阅读 · 0 评论 -
scala机器学习实战(二) 保险数据预测分析(代码参数详解)
scala机器学习实战(二) 保险数据预测分析(代码参数详解) 前言 上一次的内容分享主要给出了基于保险数据的三种机器学习算法不用的应用流程。主要以代码展示和结果对比为主,本篇文章,笔者将详细解释代码中出现的各个参数的意义 代码实例(只展示算法应用部分,全部代码请移步)object ScalaLR { def main(args: Array[String]): Unit ...原创 2019-03-19 11:06:36 · 1324 阅读 · 0 评论 -
scala机器学习实战(三) 保险数据预测分析(LR算法详解)
LR算法详解前言 前景提要,前两篇文章,借助于Scala Machine Learning Projects一书,利用保险服务的数据,进行了保险行业数据的预测分析,第一篇文章分别用了三种不同的算法进行相同数据的测试,来对比三种算法的模型性能;第二篇则详细通过LR实例解释了spark机器学习中各种输入参数和模型评估的输出参数所代表的的实际意义,本篇文章将详细阐述LR算法的原理,作用以及代码实现...原创 2019-03-19 17:51:32 · 2864 阅读 · 0 评论 -
史无前例详细从零开始安装Hadoop集群
1.安装一个VM虚拟机管理工具。(这个网上自行下载,傻瓜式一键安装就好)2.配置VM的环境2.1配置Windows中vmnet8网卡的ip配置3.创建一个虚拟机(空白的虚拟机,稍后用自己的ISO镜像文件装系统)4.安装Linux的虚拟机系统(虚拟机的设置中按照如下进行设置)5.启动Linux系统,进行基础配置安装本地yum源先确保虚拟机的驱动已经原创 2018-02-02 11:17:39 · 492 阅读 · 0 评论