自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(66)
  • 收藏
  • 关注

原创 FoundationDB 基本使用

FoundationDB是一个分布式数据库,设计用于在大量普通服务器组成的集群上处理大规模的结构化数据。它将数据组织为有序的键值存储,并对所有操作采用ACID事务来确保数据的完整性。

2024-07-24 17:02:44 875

原创 Linux Supervisor 进程管理

Supervisor是一个开源的进程管理工具,主要用于在类Unix系统(包括Linux和macOS等)上监控和管理长时间运行的进程(守护进程)。Supervisor通过一个简易的INI风格的配置文件提供了诸多针对单个进程的选项进行配置,比如自动重启失败的进程和自动日志轮转。同时,Supervisor还提供本地或远程的命令行和Web界面来启动、停止和监控进程。

2024-07-18 15:02:09 732

原创 PostgreSQL主从同步

PostgreSQL的主从同步主要基于其预写日志(Write-Ahead Log, WAL)机制和流复制(Streaming Replication)功能来实现数据的高可用性和一致性。

2024-07-02 16:08:32 1032

原创 PostgreSQL分区表

分区表是一种数据库优化技术,它允许将一个大表逻辑上划分为多个较小的、可管理的部分,这些部分被称为分区或子表。分区表在物理上是分开存储的,但在逻辑上仍作为一个整体呈现给用户。这一特性特别适用于处理大量数据的场景,旨在提高查询性能、管理和维护大数据集的效率。

2024-06-29 16:18:58 972

原创 Doris:倒排索引

倒排索引,是信息检索领域常用的索引技术,将文本分成一个个词,构建 词 -> 文档编号 的索引,可以快速查找一个词在哪些文档出现。从 2.0.0 版本开始,Doris 支持倒排索引,可以用来进行文本类型的全文检索、普通数值日期类型的等值范围查询,快速从海量数据中过滤出满足条件的行。

2024-06-28 15:57:16 700

原创 Docker:Harbor

Docker Harbor 是由 VMware 公司开源的一款企业级的 Docker Registry 项目,旨在为用户提供一个便捷的方式来搭建和管理私有 Docker 镜像仓库。

2024-06-17 17:13:28 519

原创 Doris:冷热分层

冷热分层支持所有 Doris 功能,只是把部分数据放到对象存储上,以节省成本,不牺牲功能。

2024-06-16 17:20:15 826

原创 大模型:文本分割模型

​BERT文本分割-中文-通用领域(nlp_bert_document-segmentation_chinese-base),该模型基于wiki-zh公开语料训练,对未分割的长文本进行段落分割。提升未分割文本的可读性以及下游NLP任务的性能。

2024-06-13 00:01:55 1370 1

原创 ​阿里通义千问:本地部署Qwen1.5开源大模型

通义千问为阿里云研发的大语言系列模型。千问模型基于Transformer架构,在超大规模的预训练数据上进行训练得到。预训练数据类型多样,覆盖广泛,包括大量网络文本、专业书籍、代码等。同时,在预训练模型的基础之上,使用对齐机制打造了模型的chat版本。

2024-06-06 23:07:44 2236

原创 向量数据库:Milvus

Milvus 是一个开源的高性能向量数据库,旨在为嵌入式相似性搜索和人工智能应用提供强大支持。

2024-06-05 16:45:39 782 1

原创 Docker

Docker 是一个开源的容器化平台,它允许开发者将应用及其依赖环境打包成轻量级、可移植的容器。

2024-06-04 17:41:14 1584

原创 OceanBase:列存储

OceanBase 4.3 版本基于LSM-Tree 架构基础进行扩展,正式推出列存引擎,在一个架构、一个数据库上,实现了列存和行存数据存储一体化,兼顾 TP 和 AP 查询性能。

2024-05-28 19:06:05 1281

原创 大模型框架:vLLM

​vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架。它利用了全新的注意力算法「PagedAttention」,提供易用、快速、便宜的LLM服务。

2024-05-24 16:56:07 2554

原创 大模型管理工具:Ollama

Ollama 是一个基于 Go 语言开发的可以本地运行大模型的开源框架,同时提供 REST API 管理和使用大模型。

2024-05-13 20:53:58 1587 1

原创 大模型管理工具:SWIFT

SWIFT(Scalable lightWeight Infrastructure for Fine-Tuning)是魔搭ModelScope开源社区推出的一套完整的轻量级训练、推理、评估和部署工具,支持200+大模型、15+多模态大模型以及10+轻量化Tuners,让AI爱好者能够使用自己的消费级显卡玩转大模型和AIGC。

2024-05-13 20:53:41 2158 1

原创 向量数据库:Chroma

Chroma是一个开源的嵌入式数据库。Chroma通过使知识(knowledge)、事实(facts)和技能(skills)可插拔,从而简化了大型语言模型(LLM)应用程序的构建。

2024-05-11 09:55:25 1527

原创 向量数据库:PGVector

PGVector 是一个基于 PostgreSQL 的扩展插件,为用户提供了一套强大的向量存储和查询的功能

2024-05-09 15:55:42 2537

原创 智谱AI通用大模型:本地部署ChatGLM3-6B开源大模型

ChatGLM3 是智谱AI和清华大学 KEG 实验室联合发布的新一代对话预训练模型。

2024-04-23 17:16:59 2835

原创 Python 环境管理工具:Conda

Conda 是一个开源的跨平台包管理器和环境管理系统,主要用于 Python 和 R 等数据科学与机器学习相关的编程语言环境。它是由 Anaconda 分发版提供的,但也可以独立安装。

2024-04-23 09:13:16 1403

原创 百度文心一言:官方开放API开发基础

文心一言(英文名:ERNIE Bot)是百度全新一代知识增强大语言模型,其基础是文心大模型。文心大模型基于大规模训练数据进行预训练,结合有监督精调、人类反馈的强化学习、Prompt 机制,构建生成式人工智能大模型,具备知识增强、检索增强和对话增强的技术特色。

2024-04-18 10:55:01 2699

原创 阿里通义千问:官方开放API开发基础

通义千问是由阿里云自主研发的大语言模型,用于理解和分析用户输入的自然语言,在不同领域、任务内为用户提供服务和帮助。您可以通过提供尽可能清晰详细的指令,来获取符合您预期的结果。

2024-04-17 00:29:57 7550 3

原创 智谱AI通用大模型:官方开放API开发基础

GLM-4是智谱AI发布了新一代基座大模型,整体性能相比GLM3提升60%,支持128K上下文,可根据用户意图自主理解和规划复杂指令、完成复杂任务。

2024-04-17 00:29:42 1289

原创 Apache MINA SSHD

Apache MINA SSHD(Secure Shell Daemon)是基于Apache MINA(Multipurpose Infrastructure for Network Applications)开发的一个开源的Java库,专门用于提供SSH(Secure Shell)服务。

2024-04-09 21:12:50 807 1

原创 计算机系统结构(02325)

计算机系统=硬件/固件+软件。从使用语言的角度,一台软、硬件组成的通用计算机系统可以被看成是按功能规划的多层机器组成的层次结构。

2024-03-28 20:19:04 925

原创 openGuass:极简版安装

openGauss是一款支持SQL2003标准语法,支持主备部署的高可用分布式数据库系统,业务数据存储在单个物理节点上,数据访问任务被推送到服务节点执行,通过服务器的高并发,实现对数据处理的快速响应。同时通过日志复制可以把数据复制到备机,提供数据的高可靠和读扩展。

2023-12-20 16:17:26 1082

原创 Spark-03: Spark SQL 基础编程

Spark SQL是Apache Spark的一个模块,用于处理结构化数据。它提供了两种编程抽象:DataFrame和DataSet,并作为分布式SQL查询引擎。

2023-12-05 10:19:30 646

原创 Spark-05:Spark 共享变量

共享变量允许在多个任务之间共享数据,而不是为每个任务分别复制一份变量。这样可以显著降低网络传输的开销和内存占用。Spark提供了两种类型的共享变量:广播变量(broadcast variables)和累加器(accumulators)。

2023-11-23 17:56:56 1338

原创 OceanBase:04-单机在线转分布式部署

OceanBase 数据库为单机分布式一体化架构,支持单机在线转分布式部署。当数据库集群部署在一个机房(Zone)的多台服务器(OBServer)时,实现服务器级别容灾。当集群的服务器在一个地区的多个机房中时,能够实现机房级别容灾。当集群的服务器在多个地区的多个机房中时,能够实现地区级别容灾。

2023-11-22 14:11:42 719

原创 OceanBase:OBServer节点管理

ceanBase 数据库是单进程软件,进程名为 observer。通常一台物理或者虚拟服务器运行一个 observer 进程,由 IP 和端口作为唯一标识,称之为节点。

2023-11-21 14:17:57 1243

原创 OceanBase:集群常见操作

OceanBase 数据库(OceanBase Database)是一款蚂蚁集团完全自研的企业级原生分布式数据库,在普通硬件上实现金融级高可用,首创“三地五中心”城市级故障自动无损容灾新标准,刷新 TPC-C 标准测试,单集群规模超过 1500 节点,具有云原生、强一致性、高度兼容 Oracle/MySQL 等特性

2023-11-20 17:36:32 780

原创 OceanBase:Zone管理

OceanBase 集群由若干个 Zone 组成。从物理层面来讲,一个 Zone 通常是一个独立的物理部署单元,可以是一个数据中心(IDC)或者云上的一个 Zone(可用区),也可以是一个单独的机架(Rack)。通过将 OceanBase 集群部署于不同的 Zone ,实现单个 Zone 故障时的故障隔离及快速恢复。

2023-11-19 14:56:18 757

原创 Debezium-Embedded 实时监控MySQL数据变更

Debezium连接器的操作通常是将它们部署到Kafka Connect服务,并配置一个或多个连接器来监控上游数据库,并为它们在上游数据库中看到的所有更改生成数据更改事件。这些数据更改事件被写入Kafka,在那里它们可以被许多不同的应用程序独立使用。Kafka Connect提供了出色的容错性和可扩展性,因为它作为分布式服务运行,并确保所有注册和配置的连接器始终在运行。

2023-11-15 19:09:54 1388 1

原创 PostgreSQL基本操作

PostgreSQL基本操作

2023-11-14 16:55:20 5055

原创 ElasticSearch基本操作

这里请求路径中的_cat 表示查看的意思,indices 表示索引,所以整体含义就是查看当前 ES服务器中的所有索引,就好像 MySQL 中的 show tables 的感觉,服务器响应结果如下。在 Postman 中,向ES服务器发DELETE请求 :http://192.168.179.121:9200/shopping/_doc/1。在Postman中,向ES服务器发POST请求 :http://192.168.179.121:9200/shopping/_update/1。

2023-11-13 23:43:13 1072 1

原创 Doris:读取Doris数据的N种方法

读取Doris数据的N种方法

2023-11-12 20:18:39 3137

原创 Doris:多源数据目录(Multi-Catalog)

多源数据目录(Multi-Catalog)功能,旨在能够更方便对接外部数据目录,以增强Doris的数据湖分析和联邦数据查询能力。

2023-11-11 18:53:02 3910

原创 Kafka

Apache Kafka是一个开源分布式事件流平台,也是一种高吞吐量的分布式发布订阅消息系统,被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用程序。

2023-11-10 14:47:10 1755

原创 Canal

canal主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费。

2023-11-09 00:01:21 352

原创 Doris:Binlog Load导入数据

Binlog Load提供了一种使Doris增量同步用户在Mysql数据库的对数据更新操作的CDC(Change Data Capture)功能。

2023-11-08 08:50:32 1024 2

原创 Doris:MySQL数据同步到Doris的N种方式

通过编程方式,利用jdbc读取mysql中的数据,然后可以通过jdbc或者Stream Load方式插入数据到doris中。当mysql与doris服务之间无法通过网络互联时,可以通过将mysql数据导出成csv文件,然后再在doris服务器导入csv文件的方式进行同步数据。将mysql导出的csv文件上传到doris服务器之后,可以通过Stream Load和MySQL Load两种方式导入数据进doris数据库中。修改fe和be配置文件,指定jdbc_drivers_dir目录。开启服务端导入功能。

2023-11-07 14:09:32 5715

阿里云大数据AI一体化最佳实践

阿里云大数据AI一体化最佳实践

2024-07-08

数据智能白皮书(2024年)

数据智能白皮书(2024年)

2024-06-26

面向人工智能的数据治理实践指南(1.0)

面向人工智能的数据治理实践指南(1.0)

2024-06-26

广州国资国企监管业务数据治理及分析项目主体实施服务-采购需求

广州国资国企监管业务数据治理及分析项目主体实施服务-采购需求

2024-06-07

广西壮族自治区自然灾害应急能力提升工程预警指挥项目-数据治理系统和现场应急感知技术装备采购需求

广西壮族自治区自然灾害应急能力提升工程预警指挥项目—数据治理系统和现场应急感知技术装备采购需求

2024-06-05

河池学院数据治理(一期)与业务等级保护测评(二级)采购

河池学院数据治理(一期)与业务等级保护测评(二级)采购

2024-05-30

南宁法院司法数据中台第一期采购

南宁法院司法数据中台第一期采购

2024-05-30

oceanbase 单机部署配置文件

oceanbase 单机部署配置文件

2023-11-17

北海市数据治理项目软件开发及服务

按照《广西一体化政务大数据体系建设方案》(桂政数办发〔2023〕3号) 等国家、自治区数据中台建设相关规范、要求, 完成北海市数据中台等系统 定制开发, 统一数据共享标准, 归集地方数据,构建信息共享、多级联动的 政务数据共享体系, 推动数据治理现代化发展,持续优化政务效能。

2023-10-19

Hadoop分布式(高可用)部署配置文件

Hadoop分布式(高可用)部署配置文件

2023-10-03

Hadoop分布式部署配置文件

Hadoop分布式部署配置文件

2023-10-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除