BigDataMK-CSDN博客

原创 DorisDB测试

DorisDB测试一、使用背景1.1 选用原因原有业务查询使用的数据库为greenplum，在数据源变更后，数据量暴增的情况下，GP已经无法满足业务查询的时效要求，因此将目光转向其他解决方案，在简单测试了DorisDB，clickhouse以及其他olap产品后，结合自身的业务特点，最终初步选用的DorisDB作为最终的MPP的解决方案。此文档也是基于DorisDB进行详细的业务测试的文档。1.2 业务介绍数据上的痛点主要在于在计算资源有限的情况下，大数据量下的导入（日增原始数据量10T）

2021-04-08 17:49:34 2353

原创浅谈Hadoop体系和MPP体系

浅谈Hadoop体系和MPP体系引言如题，在大数据发展至今，为了应对日益繁多的数据分析处理，和解决客户各种奇思妙（怪）想需求，形形色色的大数据处理的框架和对应的数据存储手段层出不穷。有老当益壮的Hadoop体系，依靠Hadoop巨大的社区生态支撑，加上各种开源（白嫖）组件的组合，其通用性，易用性，对于很多数据量不是很大，同时不那么追求极致性能的公司很友好。同时还有各种各样的MPP大规模并行计算框架，去应付巨量数据的分析处理。下面就简单的说一说笔者在工作中对于这两者的一些使用感受，给大家提供一些思路

2021-02-02 18:01:32 3753 2

原创 Scala数据结构——栈和队列

栈和队列1.栈思路：栈在编程中是一个比较常见的思想。可以简单的把栈理解为一个用来盛装信件的邮箱，每一次投递的信件都在之前投递的信件上边，当我们从这个邮箱中取信件时，也是从最上边（最晚投递进去）信件开始取，也就是先进后出。当然，有时候你可能会按照信件的紧急与否，决定取出的顺序，比如将最紧急的信件放在最上边，这就不是传统意义上的栈了，从栈底拿信件处理，就是队列的结构，如果区分优先级别，就是优先级队列。下边是一个栈的示意图。代码：代码包括创建栈，栈的压入，弹出，遍历栈的元素。

2020-07-24 09:51:46 389

原创 Scala数据结构——简单排序

Scala版数据结构——简单排序1. 冒泡排序思路：冒泡排序作为排序算法中的入门级算法，思路也是相对简单。但是相对的，也是各种排序算法中运行速度相对较慢的一种。其大致思路就是，每次拿一个元素和相邻的元素进行比较，每次比较时，满足大小条件的，就会交换位置，经过一轮排序后，最大（或最小）的数就会到最右边的位置。重复进行，直到找到倒数第一大（小）的数，整个排序就完成了。详情见下图。代码:def main(args: Array[String]): Unit = { val

2020-07-23 20:25:42 733

原创大数据分析利器——clickhouse的简介与应用

大数据分析利器——clickhouse的简介与应用背景介绍公司原有的数仓技术架构是基于传统的Hadoop的数仓体系，使用任务调度，通过不同的hive的任务调度解决不同的业务主题。传统的数仓架构胜在稳定，依托于Hadoop体系，使用的用户也较多。但是也存在以下的缺点：1. 实时性：实时性较低，基于T+1的数据导入限制，通常hive的整个数据从数据源头到最后的数据应用，中间的时间跨度基本都在几个小时到一天，数据的实时性达不到业务的需求，业务端会想要尽快的知道他想要知道的结果。2. 便捷性：原

2020-06-17 11:48:12 4890

原创 scala机器学习实战（三）保险数据预测分析（LR算法详解）

LR算法详解前言前景提要，前两篇文章，借助于Scala Machine Learning Projects一书，利用保险服务的数据，进行了保险行业数据的预测分析，第一篇文章分别用了三种不同的算法进行相同数据的测试，来对比三种算法的模型性能；第二篇则详细通过LR实例解释了spark机器学习中各种输入参数和模型评估的输出参数所代表的的实际意义，本篇文章将详细阐述LR算法的原理，作用以及代码实现...

2019-03-19 17:51:32 2864

原创 scala机器学习实战（二）保险数据预测分析（代码参数详解）

scala机器学习实战（二）保险数据预测分析（代码参数详解）前言上一次的内容分享主要给出了基于保险数据的三种机器学习算法不用的应用流程。主要以代码展示和结果对比为主，本篇文章，笔者将详细解释代码中出现的各个参数的意义代码实例（只展示算法应用部分，全部代码请移步）object ScalaLR { def main(args: Array[String]): Unit ...

2019-03-19 11:06:36 1324

原创 scala机器学习实战（一）保险数据预测分析

scala机器学习之保险数据预测分析数据资料来源：此文章数据内容来源于Scala Machine Learning Projects 2018版一书，本书分为是一个章节，本文章内容来自于第一章节书本链接：Scala Machine Learning Projects文章所用数据链接：百度云盘链接：提取码：m4ma 前言由于该书目前没有中文的翻译文档，所以该书的很多地方...

2019-03-18 17:16:26 3200 8

原创区块链技术之Fabric逻辑架构详解

一、架构图该图出自区块链技术指南一书，架构解释也主要出自于本书，有兴趣的同学可以去自行找一找资源。如图所示：fabric的底层主要由四种服务构成，分别是：身份服务、策略服务、区块链服务、智能合约服务。在这些基础服务之上，通过一些API、SDK、CLI为上层业务应用提供一些可以编程的接口服务。二、服务详解 2.1身份服务首先明确一点，fabric和比特币与以太坊的最大的区别在于...

2018-05-23 22:12:52 11320

原创 Scala转化mysql中的BigDecimal数据类型

1.将mysql的数据通过JDBC连接读到本地val jdbcDF: DataFrame = sQLContext.read.jdbc( url, tablename, columnName,//按照mysql的某一列进行分区 lowerBound, upperBound, numPartitions,//分区数 prop)jdbcDF.write.parq

2018-01-30 14:09:16 3825 2

原创手把手教你利用GO实现 Apache Doris Stream Load Win下的导入工具

利用 go语言实现的 Apache Doris 不同平台下的导入工具

2024-09-26 10:31:07 1042

原创 Doris FE启动流程源码解读

Doris中FE主要负责接收和返回客户端请求、元数据以及集群管理、查询计划生成等工作。本文主要看一下Doris的fe在启动时做了什么。

2023-06-19 10:03:08 1052

原创 Doris 扩缩容和副本均衡

对于集群节点发生变化（扩缩容）时，集群内部的tablet是如何以一定的策略完成数据的重分布，从而达到每个be能够分布尽可能数量相同的tablet。同时，集群内部某些tablet由于某些原因发生损坏时，这些tablet的自动修复工作又是如何进行的呢？为什么通常需要推荐三副本，不采用2副本或者1副本存储？这个和副本自动修复机制有什么关联吗？一一来看上面的问题之前，我们先看一下整个tablet管理的流程。

2023-06-19 09:57:09 1273

原创 PG系列数据库TPCH测试文档

postgresql 语法的数据库通用TPCH测试流程

2022-11-14 18:00:55 1138 1

原创 StarRocks 自增ID实现分页优化

目前StarRocks在不支持自增ID的情况下，对于明细模型的分页查询场景，由于要保证每一次分页查询出来的数据的唯一性，需要我们人为去指定order by的列，无法利用到StarRocks自身的排序键等特性，造成分页查询场景下，性能并不是很好。有没有一种替代方案能够在外部实现一种自增id，保证每个批次提交的数据都比之前批次的数据的ID大，同时，该ID具有唯一性。并且是一个友好的数据类型（数值型），用来做明细模型的第一列，利用StarRocks的排序键来为分页场景加速。

2022-09-13 14:09:34 3112

原创 flinkCDC数据同步之 postgresql to starrocks

flinkCDC数据同步之 postgresql to starrocks

2022-08-24 17:35:14 1600 2

原创 MatrixKV产品体验

MatrixKV是一个简单的分布式强一致KV存储系统，采用Pebble作为底层的存储引擎，MatrixCube作为分布式组件，以及自定义了最简单的读写请求接口。用户可以非常简单的在任意一个节点发起读写数据的请求，也可以从任意一个节点读到需要的数据。本次体验以Docker模拟一个小型MatrixKV集群的形式，来进一步体验MatrixCube的功能与运作机制。...

2022-07-09 16:06:21 278 1

原创 StarRocks的应用场景

StarRocks的应用场景StarRocks简介StarRocks是新一代极速全场景MPP数据库。StarRocks充分吸收关系型OLAP数据库和分布式存储系统在大数据时代的优秀研究成果，在业界实践的基础上，进一步改进优化、升级架构，并增添了众多全新功能，形成了全新的企业级产品。StarRocks致力于构建极速统一分析体验，满足企业用户的多种数据分析场景，支持多种数据模型(明细模型、聚合模型、更新模型)，多种导入方式（批量和实时），支持导入多达10000列的数据，可整合和接入多种现有系统(Spa

2022-04-25 16:21:28 3961 2

原创 StarRocks Ansible 使用指南

StarRocks Ansible 使用指南StarRocks_Ansible简介 StarRocks_Ansible是基于ansible构建的StarRocks高可用集群轻量化自动运维工具，它能够在本地方便快捷的一键拉起StarRocks高可用集群，并且集群的启停、升降级、扩缩容都可以通过一条简单的命令来实现，使用户可以将注意力专注于StarRocks强大的分析能力，而不用在运维上面耗费心力。后续将会增加更多使用者关注的自动化功能。如监控、运维巡检等一系列功能。StarRocks_Ansible使

2022-04-18 11:34:01 414

原创 Doris Ansible 使用指南

Doris Ansible 使用指南Doris_Ansible简介 Doris_ansible是基于ansible构建的Doris高可用集群轻量化自动运维工具，它能够在本地方便快捷的一键拉起Doris高可用集群，并且集群的启停、升降级、扩缩容都可以通过一条简单的命令来实现，使用户可以将注意力专注于Doris强大的分析能力，而不用在运维上面耗费心力。后续将会增加更多使用者关注的自动化功能。如监控、运维巡检等一系列功能。Doris_Ansible使用步骤前置基础安装ansibleyum ins

2022-04-18 11:22:00 2097

原创数据库内核学习总结

数据库内核

2022-03-16 14:35:26 2962

原创 StarRocks FE开发环境搭建

StarRocks FE开发环境（IDEA）搭建前言该文档基于starrocks官方提供的docker镜像，为大家提供在IDEA上进行FE的开发环境搭建，方便大家进行源码的阅读或者参与到starrocks的开发中。编译镜像地址https://hub.docker.com/r/starrocks/dev-env编译环境准备系统： centos7.6内存：大于4G磁盘空间：大于30GCPU: 核数大于2core，编译时核数越多，相对会越快编译步骤1. 下载docker(已

2021-10-08 15:04:55 1706

原创 greenplum 6.7安装文档

greenplum 6.7安装文档资源规划资源准备1.系统版本：CentOS Linux release 7.7.1908 (Core)2.greenplum：greenplum-db-6.7.0-rhel7-x86_64.rpm3.此处采用了三台机器。分别为doris01,doris02,doris034.建议每个segment资源给到8G-16G，或者根据机器核数设置（如果segment主机有两个双核处理器，则每个主机可能有两个或四个segment）。角色划分1.master:dor

2021-08-30 14:53:36 292

原创 Scala数据结构——优先级队列

优先级队列思路上篇介绍的栈和队列无法按照人们想要的顺序对数据进行读取，优先级队列即可按照一定的优先顺序实现对队列中的数据存取操作。实现原理还是在队列中插入数据时，需要和已知有序的队列比较元素的大小，然后给当前插入的元素寻找到合适的位置插入即可实现有顺序的队列。因为和普通队列相似，只不过时优先级队列添加元素的逻辑略有不同，就不画图了。代码见下图：代码import util.control.Breaks._import scala.io.StdInobject FirstArrayQue

2020-07-24 14:36:32 414

原创 k8s学习总结

rancher2.0、k8s简介及其环境搭建一、rancher学习总结docker是什么Docker是一个开源的引擎，可以轻松的为任何应用部署一个轻量级的、可移植的、自给自足的容器。Docker常用于一下几种场景： - web应用的自动化打包和发布； - 自动化的测试和持续集成、发布； - 在服务环境中部署和调整数据库或者后台的其他应用； - 从头编译或扩...

2018-07-12 15:26:10 18145 3

原创 Navicat连接orcale数据库存入blob字段

针对大部分人使用orcale数据库时采用的链接工具是PLSQL的问题，此处针对的是Navicat连接orcale数据库解决blob字段的存储问题。一、建议带有blob字段的资源表二、选择对象下方的下拉菜单按钮三、选择查看 –》图像之后，下方就会出现如下对话框四、选择blob字段，然后选择对话框中第一个加载按钮，选择要存储的图片，即可把图片存入orcale数据库中。...

2018-04-24 15:04:03 2557

原创史无前例详细从零开始安装Hadoop集群

1.安装一个VM虚拟机管理工具。（这个网上自行下载，傻瓜式一键安装就好）2.配置VM的环境2.1配置Windows中vmnet8网卡的ip配置3.创建一个虚拟机（空白的虚拟机，稍后用自己的ISO镜像文件装系统）4.安装Linux的虚拟机系统（虚拟机的设置中按照如下进行设置）5.启动Linux系统，进行基础配置安装本地yum源先确保虚拟机的驱动已经

2018-02-02 11:17:39 492

原创 spark 机器学习一聚类算法案例小结

最近公司需要用到机器学习做项目，本菜鸟就得去研究研究怎么回事这个案例是网上找的一个聚类算法的案例，自己敲了敲，写写先上训练数据0.00.00.00.10.10.10.20.20.25.05.05.05.15.15.15.25.25.29.09.0

2018-01-31 19:51:23 1483 5

原创 elasticsearch在虚拟机如何以root用户启动的问题详解

如题，我在学习ES的时候，在Linux虚拟机启动ES的时候，以root用户启动，报错了，告诉我不能以root用户启动。网上一查，是由于ES的安全机制导致的，查了解决办法，具体命令如下bin/elasticsearch -Des.insecure.allow.root=true按照网上的方法输入后，没什么用，后来有事创建新用户，给权限，自己水平有限，还是失败了。究其原因，是因为版本的

2018-01-30 19:09:18 2534