m0_37559973
码龄8年
关注
提问 私信
  • 博客:185,793
    185,793
    总访问量
  • 78
    原创
  • 17,667
    排名
  • 599
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广西
  • 加入CSDN时间: 2017-02-17
博客简介:

m0_37559973的博客

查看详细资料
  • 原力等级
    当前等级
    5
    当前总分
    1,111
    当月
    27
个人成就
  • 获得907次点赞
  • 内容获得32次评论
  • 获得1,070次收藏
  • 代码片获得2,131次分享
创作历程
  • 37篇
    2024年
  • 42篇
    2023年
成就勋章
TA的专栏
  • openGauss
    1篇
  • 数据中台
  • 01-概述
    1篇
  • 02-环境搭建
    6篇
  • OcenaBase
    8篇
  • Doris
    15篇
  • Hadoop
    4篇
  • Spark
    6篇
  • 大模型
    10篇
  • 数据库
    6篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Doris:垃圾数据管理

RemoteDataSize: remote storage(hdfs或对象存储)的数据量. 如果元数据类型是database, 该值包含了database下在回收站中的所有table和partition的remote storage数据量。DataSize: 数据量. 如果元数据类型是database, 该值包含了database下在回收站中的所有table和partition的数据量。be.conf 中的配置项会在 BE 进行启动时被读取。BE 重启后该配置将失效。
原创
发布博客 2024.12.27 ·
975 阅读 ·
15 点赞 ·
0 评论 ·
18 收藏

PostgreSQL:pg_stat_statements

pg_stat_statements是 PostgreSQL 的一个扩展,它用于收集关于执行的 SQL 语句的统计信息。这可以帮助你分析查询性能,识别慢查询,并优化数据库。
原创
发布博客 2024.12.19 ·
1242 阅读 ·
27 点赞 ·
0 评论 ·
25 收藏

StarRocks:存算一体模式部署

StarRocks 是一款高性能分析型数据仓库,使用向量化、MPP 架构、CBO、智能物化视图、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。StarRocks 既支持从各类实时和离线的数据源高效导入数据,也支持直接分析数据湖上各种格式的数据。StarRocks 兼容 MySQL 协议,支持标准 SQL,用户可以轻松地通过 MySQL 客户端连接到 StarRocks 实时查询分析数据。同时 StarRocks 具备水平扩展,高可用、高可靠、易运维等特性。
原创
发布博客 2024.12.18 ·
1365 阅读 ·
7 点赞 ·
0 评论 ·
21 收藏

Flink:入门介绍

Apache Flink是一个框架和分布式处理引擎,用于在无界和有界数据流上进行有状态计算。Flink 提供了数据分发以及并行化计算的能力,并且可以部署在各种集群环境中,如Hadoop YARN、Kubernetes或独立集群。。
原创
发布博客 2024.12.04 ·
1320 阅读 ·
24 点赞 ·
0 评论 ·
12 收藏

前端:nodejs简介

Node.js 是一个开源、跨平台的JavaScript运行环境,它允许开发者用JavaScript编写命令行工具和服务端应用程序。
原创
发布博客 2024.12.03 ·
420 阅读 ·
5 点赞 ·
0 评论 ·
9 收藏

Hadoop:单节点配置YARN

Hadoop YARN(Yet Another Resource Negotiator)是Hadoop的资源管理层,负责管理和分配集群中应用程序的资源。
原创
发布博客 2024.11.06 ·
604 阅读 ·
4 点赞 ·
0 评论 ·
8 收藏

Hadoop:单机伪分布式部署

Hadoop:单机伪分布式部署
原创
发布博客 2024.10.29 ·
693 阅读 ·
12 点赞 ·
0 评论 ·
12 收藏

大模型:JTokkit 分词

JTokkit 是一个专为 Java 开发者设计的高效文本分词库,主要适用于与 OpenAI 模型进行集成。它提供了一种简单易用的接口,使开发者能够轻松地对输入文本进行编码和解码,尤其是在准备向 GPT-3.5 等模型发送请求时。这个库的设计初衷是为了在 JVM 生态系统中实现类似 Python 中 tiktoken 库的功能。
原创
发布博客 2024.09.25 ·
296 阅读 ·
5 点赞 ·
0 评论 ·
1 收藏

Linux离线安装rmp包

Linux离线安装rmp包
原创
发布博客 2024.09.21 ·
1478 阅读 ·
6 点赞 ·
2 评论 ·
3 收藏

Doris:数据库建表最佳实践

Doris 数据表模型上目前分为三类:DUPLICATE KEY, UNIQUE KEY, AGGREGATE KEY。因为数据模型在建表时就已经确定,且无法修改。所以,选择一个合适的数据模型非常重要。
原创
发布博客 2024.09.20 ·
1624 阅读 ·
13 点赞 ·
0 评论 ·
7 收藏

Doris:基于 Catalog 与 Job Scheduler 的数据自动同步

通过Job Scheduler 可与数据湖能力 Multi Catalog 配合,高效完成跨数据源的定期数据同步
原创
发布博客 2024.09.20 ·
1044 阅读 ·
22 点赞 ·
0 评论 ·
10 收藏

ClickHouse:单机安装

ClickHouse是由Yandex开源的一个高性能、面向列的SQL数据库管理系统(DBMS),用于在线分析处理(OLAP)。它既可作为开源软件单独部署,也可作为云服务提供。
原创
发布博客 2024.08.06 ·
809 阅读 ·
7 点赞 ·
0 评论 ·
9 收藏

FoundationDB基本使用

FoundationDB是一个分布式数据库,设计用于在大量普通服务器组成的集群上处理大规模的结构化数据。它将数据组织为有序的键值存储,并对所有操作采用ACID事务来确保数据的完整性。
原创
发布博客 2024.07.24 ·
1333 阅读 ·
25 点赞 ·
0 评论 ·
7 收藏

Linux:Supervisor进程管理

Supervisor是一个开源的进程管理工具,主要用于在类Unix系统(包括Linux和macOS等)上监控和管理长时间运行的进程(守护进程)。Supervisor通过一个简易的INI风格的配置文件提供了诸多针对单个进程的选项进行配置,比如自动重启失败的进程和自动日志轮转。同时,Supervisor还提供本地或远程的命令行和Web界面来启动、停止和监控进程。
原创
发布博客 2024.07.18 ·
1374 阅读 ·
18 点赞 ·
0 评论 ·
8 收藏

阿里云大数据AI一体化最佳实践

发布资源 2024.07.08 ·
pdf

PostgreSQL主从同步

PostgreSQL的主从同步主要基于其预写日志(Write-Ahead Log, WAL)机制和流复制(Streaming Replication)功能来实现数据的高可用性和一致性。
原创
发布博客 2024.07.02 ·
2606 阅读 ·
21 点赞 ·
0 评论 ·
28 收藏

PostgreSQL分区表

分区表是一种数据库优化技术,它允许将一个大表逻辑上划分为多个较小的、可管理的部分,这些部分被称为分区或子表。分区表在物理上是分开存储的,但在逻辑上仍作为一个整体呈现给用户。这一特性特别适用于处理大量数据的场景,旨在提高查询性能、管理和维护大数据集的效率。
原创
发布博客 2024.06.29 ·
2976 阅读 ·
12 点赞 ·
0 评论 ·
30 收藏

Doris:倒排索引

倒排索引,是信息检索领域常用的索引技术,将文本分成一个个词,构建 词 -> 文档编号 的索引,可以快速查找一个词在哪些文档出现。从 2.0.0 版本开始,Doris 支持倒排索引,可以用来进行文本类型的全文检索、普通数值日期类型的等值范围查询,快速从海量数据中过滤出满足条件的行。
原创
发布博客 2024.06.28 ·
1652 阅读 ·
25 点赞 ·
0 评论 ·
14 收藏

数据智能白皮书(2024年)

发布资源 2024.06.26 ·
pdf

面向人工智能的数据治理实践指南(1.0)

发布资源 2024.06.26 ·
pdf
加载更多