BigDataMK
码龄7年
关注
提问 私信
  • 博客:91,201
    问答:488
    91,689
    总访问量
  • 31
    原创
  • 41,600
    排名
  • 144
    粉丝
  • 1
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:重庆市
  • 加入CSDN时间: 2018-01-06
博客简介:

齐天大圣数据候的博客

博客描述:
学习大数据,分享大数据经验
查看详细资料
  • 原力等级
    当前等级
    3
    当前总分
    323
    当月
    0
个人成就
  • 获得89次点赞
  • 内容获得26次评论
  • 获得331次收藏
  • 代码片获得502次分享
创作历程
  • 2篇
    2024年
  • 2篇
    2023年
  • 8篇
    2022年
  • 4篇
    2021年
  • 4篇
    2020年
  • 3篇
    2019年
  • 8篇
    2018年
成就勋章
TA的专栏
  • doris
    4篇
  • 大数据
    13篇
  • mpp
    11篇
  • starrocks
    4篇
  • Scala数据结构
    3篇
  • 机器学习总结
    4篇
  • hadoop
    1篇
  • spark
    3篇
  • spark源码分析
  • 数据库
    2篇
  • Fabric
    1篇
  • k8s
    1篇
  • scala
    1篇
  • 数仓
    2篇
兴趣领域 设置
  • 人工智能
    机器学习
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Doris 的Explain 和 Profile

本文将通过实例带你了解Doris中的explain和profile的分析,能够初步了解Doris的性能优化的观测手段。
原创
发布博客 2024.11.24 ·
934 阅读 ·
9 点赞 ·
0 评论 ·
20 收藏

手把手教你利用GO实现 Apache Doris Stream Load Win下的导入工具

利用 go语言实现的 Apache Doris 不同平台下的导入工具
原创
发布博客 2024.09.26 ·
1111 阅读 ·
16 点赞 ·
0 评论 ·
22 收藏

Doris FE启动流程源码解读

Doris中FE主要负责接收和返回客户端请求、元数据以及集群管理、查询计划生成等工作。本文主要看一下Doris的fe在启动时做了什么。
原创
发布博客 2023.06.19 ·
1113 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Doris 扩缩容和副本均衡

​ 对于集群节点发生变化(扩缩容)时,集群内部的tablet是如何以一定的策略完成数据的重分布,从而达到每个be能够分布尽可能数量相同的tablet。同时,集群内部某些tablet由于某些原因发生损坏时,这些tablet的自动修复工作又是如何进行的呢?为什么通常需要推荐三副本,不采用2副本或者1副本存储?这个和副本自动修复机制有什么关联吗?​ 一 一来看上面的问题之前,我们先看一下整个tablet管理的流程。
原创
发布博客 2023.06.19 ·
1387 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

PG系列数据库TPCH测试文档

postgresql 语法的数据库通用TPCH测试流程
原创
发布博客 2022.11.14 ·
1194 阅读 ·
1 点赞 ·
1 评论 ·
3 收藏

StarRocks 自增ID实现分页优化

目前StarRocks在不支持自增ID的情况下,对于明细模型的分页查询场景,由于要保证每一次分页查询出来的数据的唯一性,需要我们人为去指定order by的列,无法利用到StarRocks自身的排序键等特性,造成分页查询场景下,性能并不是很好。有没有一种替代方案能够在外部实现一种自增id,保证每个批次提交的数据都比之前批次的数据的ID大,同时,该ID具有唯一性。并且是一个友好的数据类型(数值型),用来做明细模型的第一列,利用StarRocks的排序键来为分页场景加速。
原创
发布博客 2022.09.13 ·
3304 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

flinkCDC数据同步之 postgresql to starrocks

flinkCDC数据同步之 postgresql to starrocks
原创
发布博客 2022.08.24 ·
1685 阅读 ·
0 点赞 ·
2 评论 ·
3 收藏

MatrixKV产品体验

MatrixKV是一个简单的分布式强一致KV存储系统,采用Pebble作为底层的存储引擎,MatrixCube作为分布式组件,以及自定义了最简单的读写请求接口。用户可以非常简单的在任意一个节点发起读写数据的请求,也可以从任意一个节点读到需要的数据。本次体验以Docker模拟一个小型MatrixKV集群的形式,来进一步体验MatrixCube的功能与运作机制。...
原创
发布博客 2022.07.09 ·
286 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

StarRocks的应用场景

StarRocks的应用场景StarRocks简介StarRocks是新一代极速全场景MPP数据库。StarRocks充分吸收关系型OLAP数据库和分布式存储系统在大数据时代的优秀研究成果,在业界实践的基础上,进一步改进优化、升级架构,并增添了众多全新功能,形成了全新的企业级产品。StarRocks致力于构建极速统一分析体验,满足企业用户的多种数据分析场景,支持多种数据模型(明细模型、聚合模型、更新模型),多种导入方式(批量和实时),支持导入多达10000列的数据,可整合和接入多种现有系统(Spa
原创
发布博客 2022.04.25 ·
4150 阅读 ·
2 点赞 ·
2 评论 ·
15 收藏

StarRocks Ansible 使用指南

StarRocks Ansible 使用指南StarRocks_Ansible简介​ StarRocks_Ansible是基于ansible构建的StarRocks高可用集群轻量化自动运维工具,它能够在本地方便快捷的一键拉起StarRocks高可用集群,并且集群的启停、升降级、扩缩容都可以通过一条简单的命令来实现,使用户可以将注意力专注于StarRocks强大的分析能力,而不用在运维上面耗费心力。后续将会增加更多使用者关注的自动化功能。如监控、运维巡检等一系列功能。StarRocks_Ansible使
原创
发布博客 2022.04.18 ·
439 阅读 ·
4 点赞 ·
0 评论 ·
2 收藏

Doris Ansible 使用指南

Doris Ansible 使用指南Doris_Ansible简介​ Doris_ansible是基于ansible构建的Doris高可用集群轻量化自动运维工具,它能够在本地方便快捷的一键拉起Doris高可用集群,并且集群的启停、升降级、扩缩容都可以通过一条简单的命令来实现,使用户可以将注意力专注于Doris强大的分析能力,而不用在运维上面耗费心力。后续将会增加更多使用者关注的自动化功能。如监控、运维巡检等一系列功能。Doris_Ansible使用步骤前置基础安装ansibleyum ins
原创
发布博客 2022.04.18 ·
2134 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

数据库内核学习总结

数据库内核
原创
发布博客 2022.03.16 ·
2996 阅读 ·
0 点赞 ·
0 评论 ·
13 收藏

第1.1章:StarRocks部署--源码编译

在部署StarRocks前,我们可能会纠结使用哪个版本合适。StarRocks在github上打包有各版本的源码包,在官网上也发布有基于x86架构编译的适用于CentOS 7+的Release版二进制包,版本的选择我们不妨遵循以下几个原则: 测试环境可以用官网发布的最新Release版二进制包部署,例如1.19.1,以便快速熟悉新功能;预生产环境和生产环境推荐使用官网上一个大版本的最后一个小版本,例如当前的1.1...
转载
发布博客 2021.11.22 ·
2 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

StarRocks FE开发环境搭建

StarRocks FE开发环境(IDEA)搭建前言该文档基于starrocks官方提供的docker镜像,为大家提供在IDEA上进行FE的开发环境搭建,方便大家进行源码的阅读或者参与到starrocks的开发中。编译镜像地址https://hub.docker.com/r/starrocks/dev-env编译环境准备系统: centos7.6内存: 大于4G磁盘空间: 大于30GCPU: 核数大于2core,编译时核数越多,相对会越快编译步骤1. 下载docker(已
原创
发布博客 2021.10.08 ·
1782 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

greenplum 6.7安装文档

greenplum 6.7安装文档资源规划资源准备1.系统版本:CentOS Linux release 7.7.1908 (Core)2.greenplum:greenplum-db-6.7.0-rhel7-x86_64.rpm3.此处采用了三台机器。分别为doris01,doris02,doris034.建议每个segment资源给到8G-16G,或者根据机器核数设置(如果segment主机有两个双核处理器,则每个主机可能有两个或四个segment)。角色划分1.master:dor
原创
发布博客 2021.08.30 ·
311 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

DorisDB测试

DorisDB测试一、使用背景1.1 选用原因原有业务查询使用的数据库为greenplum,在数据源变更后,数据量暴增的情况下,GP已经无法满足业务查询的时效要求,因此将目光转向其他解决方案,在简单测试了DorisDB,clickhouse以及其他olap产品后,结合自身的业务特点,最终初步选用的DorisDB作为最终的MPP的解决方案。此文档也是基于DorisDB进行详细的业务测试的文档。1.2 业务介绍数据上的痛点主要在于在计算资源有限的情况下,大数据量下的导入(日增原始数据量10T)
原创
发布博客 2021.04.08 ·
2387 阅读 ·
2 点赞 ·
0 评论 ·
7 收藏

浅谈Hadoop体系和MPP体系

浅谈Hadoop体系和MPP体系引言如题,在大数据发展至今,为了应对日益繁多的数据分析处理,和解决客户各种奇思妙(怪)想需求,形形色色的大数据处理的框架和对应的数据存储手段层出不穷。有老当益壮的Hadoop体系,依靠Hadoop巨大的社区生态支撑,加上各种开源(白嫖)组件的组合,其通用性,易用性,对于很多数据量不是很大,同时不那么追求极致性能的公司很友好。同时还有各种各样的MPP大规模并行计算框架,去应付巨量数据的分析处理。下面就简单的说一说笔者在工作中对于这两者的一些使用感受,给大家提供一些思路
原创
发布博客 2021.02.02 ·
3825 阅读 ·
7 点赞 ·
2 评论 ·
37 收藏

Scala数据结构——优先级队列

优先级队列思路上篇介绍的栈和队列无法按照人们想要的顺序对数据进行读取,优先级队列即可按照一定的优先顺序实现对队列中的数据存取操作。实现原理还是在队列中插入数据时,需要和已知有序的队列比较元素的大小,然后给当前插入的元素寻找到合适的位置插入即可实现有顺序的队列。因为和普通队列相似,只不过时优先级队列添加元素的逻辑略有不同,就不画图了。代码见下图:代码import util.control.Breaks._import scala.io.StdInobject FirstArrayQue
原创
发布博客 2020.07.24 ·
446 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Scala数据结构——栈和队列

栈和队列1.栈思路: 栈在编程中是一个比较常见的思想。可以简单的把栈理解为一个用来盛装信件的邮箱,每一 次投递的信件都在之前投递的信件上边,当我们从这个邮箱中取信件时,也是从最上边 (最晚投递进去)信件开始取,也就是先进后出。当然,有时候你可能会按照信件的紧急 与否,决定取出的顺序,比如将最紧急的信件放在最上边,这就不是传统意义上的栈了, 从栈底拿信件处理,就是队列的结构,如果区分优先级别,就是优先级队列。下边是一个 栈的示意图。代码: 代码包括创建栈,栈的压入,弹出,遍历栈的元素。
原创
发布博客 2020.07.24 ·
415 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Scala数据结构——简单排序

Scala版数据结构——简单排序1. 冒泡排序思路: 冒泡排序作为排序算法中的入门级算法,思路也是相对简单。但是相对的,也是各种排序算法中运行速度相对较慢的一种。其大致思路 就是,每次拿一个元素和相邻的元素进行比较,每次比较时,满足大小条件的,就会交换位置,经过一轮排序后,最大(或最小)的数就会 到最右边的位置。重复进行,直到找到倒数第一大(小)的数,整个排序就完成了。详情见下图。代码:def main(args: Array[String]): Unit = { val
原创
发布博客 2020.07.23 ·
749 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏
加载更多