- 博客(239)
- 收藏
- 关注
原创 DORIS - DORIS的分区分桶
在存储引擎方面,Apache Doris 采用列式存储,按列进行数据的编码压缩和读取,能够实现极高的压缩比,同时减少大量非相关数据的扫描,从而更加有效利用 IO 和 CPU 资源。
2024-09-13 14:50:52 724
原创 SpringCloud - 服务网关(一)
Spring Cloud Gateway作为Spring Cloud生态中的网关,不仅提供统一的路由能力,并且还提供了基于FILTER链方式的网关基本的功能。
2024-09-13 11:31:50 479
原创 大数据 - HIVE3.1.0元数据服务(二)
元数据服务也就是HiveMetastore服务,客户端先连接HiveMetastore服务,HiveMetastore服务再去连接元数据存储的数据库,从而获取相关元数据信息。Derby模式下值为org.apache.derby.jdbc.EmbeddedDriver, MySQL为com.mysql.jdbc.Driver;HIVE将元数据存储在关系数据库中(MySql、Derby),元数据包括数据库信息及表的信息如:表的属性、表的名称、表的列、分区及其属性等。比如使用Derby时的值可以为。
2024-09-12 13:56:45 278
原创 大数据 - OLAP与OLTP的区别
联机事务处理OLTP(on-line transaction processing)和 联机分析处理OLAP(On-Line Analytical Processing)。
2024-09-12 13:54:34 223
原创 APACHE-ATLAS-2.1.0 - 基础运维
(一)SOLR相关1. 如何创建/删除集合?# 1. 删除solr/bin/solr delete -c vertex_indexsolr/bin/solr delete -c edge_indexsolr/bin/solr delete -c fulltext_index# 2. 创建solr/bin/solr create -c vertex_index -force -d conf/solr/solr/bin/solr create -c edge_index -force -d c
2024-09-10 09:38:38 608
原创 APACHE-ATLAS-2.1.0 - 安装MetaStoreEventListener用于实时接收HIVE元数据的变化
安装MetaStoreEventListener用于实时接收HIVE元数据的变化。
2024-09-10 09:37:56 273
原创 DORIS - DORIS的BDBJE简介
Berkeley DB(BDB)是一个开源的数据库,它提供的是一系列直接访问数据库的函数,而不是像关系数据库那样需要网络通讯、SQL解析等步骤。Berkeley DB是一个高性能的,嵌入式的数据库编程库,“嵌 入”是指它内嵌在程序中,而不是说他只应用在嵌入式系统上,它适合于管理海量的,简单的数据。
2024-09-09 10:56:27 343
原创 DORIS - DORIS查询优化之行列混存
什么是点查询?一句话:点查询,就是指根据KEY从数据库中取出一行或几行数据的过程。所谓的「点查询」,指的是在查询数据库表时,通过等值的条件筛选(WHERE 字段名=字段值),一般通过走索引的方式,以非常快的速度,获取到目标结果的查询方式。如果你查询的条件走了索引,且符合条件的目标数据量很小的话,那么这个查询效率就会非常高。
2024-09-09 10:46:31 442
原创 大数据 - 行式存储与列式存储
大多数数据库系统存储一组数据记录,这些记录由表中的列和行组成。表可以水平分区(将属于同一行的值存储在一起),也可以垂直分区(将属于同一列的值存储在一起)。数据库用于存储、检索和管理大量数据,一般情况下,数据库系统采用了两种主要的存储方式:行式存储和列式存储。在数据库管理系统中,数据存储的方式对性能和效率有重要影响,所以用户可以根据业务场景自行选择行存还是列存的数据库。
2024-09-06 15:31:46 797
原创 Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon running?
Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon running?
2024-09-06 15:17:45 172
原创 DORIS - DORIS行存编码格式JSONB
JSONB(JavaScript Object Notation Binary)是PostgreSQL、MySQL数据库中的一种数据类型,用于存储和查询JSON数据。它提供了在数据库中存储和操作JSON数据的能力,使得数据库能够更好地处理半结构化数据。JSONB是一种半结构化的数据雷系,支持的数据类型包括字符串、数字、布尔值、数组和对象,也可以嵌套存储更复杂的数据结构,比如嵌套的数组和对象。
2024-09-05 14:34:26 563
原创 大数据之数据仓库的分层:ODS/DWD/DWS/ADS
ETL层(Extract-Transform-Load):数据清洗层,存原始数据;ODS层(Operational Data Store):操作数据源层;CDM层(Common Dimensional Model):公共维度模型层,主要包括DWD层(Data Warehouse Detail 数据明细层) 和 DWS层(Data Warehouse Summary 数据汇总层)两部分;ADS层(Application Data Service):数据应用层。
2024-09-05 09:15:32 630
原创 Apache Arrow简介
Apache Arrow是一个开源的跨平台数据层开发框架,主要提供高效的、硬件加速的、内存中数据计算的能力。Apache Arrow的设计初衷是作为“新一代大数据系统的共享基础”,可以作为不同系统之间进行高效数据交换的媒介,同时提供快速、低延迟的数据访问接口。Apache Arrow的主要目标是通过提供一个开放的标准,解决大数据领域常见的问题:大量的数据复制和序列化/反序列化操作所带来的性能问题,以及跨平台和跨语言环境下的数据兼容性问题。
2024-09-02 16:20:57 741
原创 DORIS - DORIS简介
Apache Doris 是一款基于 MPP 架构的高性能、实时的分析型数据库,以高效、简单、统一的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。
2024-08-31 18:23:44 946
原创 大数据查询优化之分区裁剪 ?
分区裁剪是一种优化大数据查询性能的技术,它主要通过限制查询处理的数据范围来提高查询效率。分区裁剪主要涉及到对HiveSQL语句的优化,包括列裁剪和分区裁剪两个方面。
2024-08-31 09:02:19 161
原创 大数据查询优化之谓词下推 ?
谓词,可以理解为条件表达式,在SQL中,谓词就是返回Boolean值,即True或False的函数,或是隐式转换为Boolean的函数。SQL中的谓词主要有 LKIE、BETWEEN、IS NULL、IS NOT NULL、IN、EXISTS其结果为布尔值,即True或False。在SELECT语句的WHERE子句或HAVING子句中,确定哪些行与特定查询相关的条件或者函数。
2024-08-31 09:01:21 347
原创 一文认识大数据的CAP原则和BASE原则
CAP原则又称CAP定理,指的是在一个分布式系统中,一致性(Consistency)、可用性(Availability)、分区容错(Partition-tolerance),在一个分布式系统中三个要素不可同时具有,只能选择其中两个,不可能三者兼顾。不可以同时满足的主要原因是当出现通信失败时(即出现分区容错),此时集群的一致性C和可用性A不可以同时满足。
2024-08-30 09:29:39 491
原创 一文认识数据库事务(ACID)
数据库事务(Database Transaction)是数据库管理系统执行过程中的一个逻辑单位,由一系列对数据的操作组成。事务是数据库维护数据的原子性、一致性和完整性的重要机制。
2024-08-30 09:28:16 446
原创 一文读懂数据库、数据仓库、数据平台、数据中台、数据湖、湖仓一体的使用场景和区别
一文读懂数据库、数据仓库、数据平台、数据中台、数据湖、湖仓一体的使用场景和区别
2024-08-29 16:56:46 1352
原创 DORIS - 执行 git submodule update --init --recursive 的目的是什么?
DORIS - 执行 git submodule update --init --recursive 的目的是什么?
2024-08-27 17:33:13 273
原创 DORIS - 克隆代码异常(Clone succeeded, but checkout failed)
由于文件名太长,git clone 执行成功,git checkout 失败。
2024-08-27 17:08:05 201
原创 JAVA基础 - HTTRACK安装使用教程
工作中经常需要查看在线文档,在没有网络的情况下如何查看在线文档呢?计划使用HTTRACK将文档克隆到本地,然后离线查看。
2024-04-29 09:23:02 556
原创 NLP - 如何解决ModuleNotFoundError: No module named ‘jieba‘的问题
ModuleNotFoundError: No module named 'jieba'
2023-08-22 16:01:08 3394
原创 SpringBoot - 在IDEA中经常发现:Could not autowire. No beans of ‘xxx‘ type found的错误
在IDEA中经常发现:Could not autowire. No beans of 'xxx' type found的错误。
2023-06-29 09:18:08 3415
原创 SpringBoot - 如何使用SpringBootServletInitializer将SpringBoot项目打成WAR包并部署TOMCAT中
SpringBootServletInitializer让SpringBoot将应用程序以 WAR 包的形式部署在外部的SERVLET容器中(如 Tomcat、Jetty、Undertow等),并提供一种简单的配置外部SERVLET容器的方法。
2023-06-21 15:05:40 1622
原创 JAVA基础 - WINDOWS下安装的MYSQL服务在服务中找不到
在WINDOWS下安装MYSQL服务过几天后,MYSQL无法连接,在服务列表中也查看不到MYSQL的信息。
2023-06-20 15:18:04 253
原创 SpringBoot - @Transactional注解详解
Spring中的@Transactional注解,基于动态代理的机制,提供了一种透明的事务管理机制,方便快捷的解决在开发中碰到的问题,@Transactional 的事务开启 ,或者是基于接口的或者是基于类的代理被创建。Spring为了更好的支撑数据库操作,在框架中支持了两种事务管理的方式:编程式事务和声明式事务,能够保证作单个逻辑工作单元执行的一系列操作,要么同时成功,要么同时失败。
2023-06-19 17:48:41 3348 1
原创 大数据 - HIVE3.1.0安装部署 - 初始化报错:Illegal character entity: expansion character (code 0x8
HIVE3.1.0安装部署 - 初始化报错:Illegal character entity: expansion character (code 0x8。
2023-06-14 17:37:25 384
原创 SpringBoot - spring-boot-maven-plugin插件介绍
使用该插件打包的JAR或者WAR文件中包含了所有的依赖和资源文件,可以直接在命令行或者WEB服务器上启动运行,如果不使用该插件,而是采用手动配置打包项目所有的依赖项和资源文件,将会非常繁琐、复杂且易错。也就是说,SPRING BOOT借助spring-boot-maven-plugin插件,将所有应用启动运行所需要的JAR都打包在一起,从逻辑上该JAR具备了独立运行的条件。
2023-06-14 14:48:42 4107
原创 MAVEN - 使用maven-dependency-plugin的应用场景是什么?
该插件主要用于管理项目中的依赖,使用该插件可以方便地查看、下载、复制和解压缩依赖,还支持生成依赖树和依赖报告。
2023-06-14 09:08:18 1740
原创 SpringBoot - 集成RestTemplate模板(十) - 使用过程中遇到找不到RestTemplate实例的错误
Description:Field restTemplate in com.hadoopx.quartz.executor.ServicexExecutor required a bean of type 'org.springframework.web.client.RestTemplate' that could not be found.
2023-06-13 17:10:20 843
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人