- 博客(66)
- 收藏
- 关注
原创 FoundationDB 基本使用
FoundationDB是一个分布式数据库,设计用于在大量普通服务器组成的集群上处理大规模的结构化数据。它将数据组织为有序的键值存储,并对所有操作采用ACID事务来确保数据的完整性。
2024-07-24 17:02:44
875
原创 Linux Supervisor 进程管理
Supervisor是一个开源的进程管理工具,主要用于在类Unix系统(包括Linux和macOS等)上监控和管理长时间运行的进程(守护进程)。Supervisor通过一个简易的INI风格的配置文件提供了诸多针对单个进程的选项进行配置,比如自动重启失败的进程和自动日志轮转。同时,Supervisor还提供本地或远程的命令行和Web界面来启动、停止和监控进程。
2024-07-18 15:02:09
732
原创 PostgreSQL主从同步
PostgreSQL的主从同步主要基于其预写日志(Write-Ahead Log, WAL)机制和流复制(Streaming Replication)功能来实现数据的高可用性和一致性。
2024-07-02 16:08:32
1032
原创 PostgreSQL分区表
分区表是一种数据库优化技术,它允许将一个大表逻辑上划分为多个较小的、可管理的部分,这些部分被称为分区或子表。分区表在物理上是分开存储的,但在逻辑上仍作为一个整体呈现给用户。这一特性特别适用于处理大量数据的场景,旨在提高查询性能、管理和维护大数据集的效率。
2024-06-29 16:18:58
972
原创 Doris:倒排索引
倒排索引,是信息检索领域常用的索引技术,将文本分成一个个词,构建 词 -> 文档编号 的索引,可以快速查找一个词在哪些文档出现。从 2.0.0 版本开始,Doris 支持倒排索引,可以用来进行文本类型的全文检索、普通数值日期类型的等值范围查询,快速从海量数据中过滤出满足条件的行。
2024-06-28 15:57:16
700
原创 Docker:Harbor
Docker Harbor 是由 VMware 公司开源的一款企业级的 Docker Registry 项目,旨在为用户提供一个便捷的方式来搭建和管理私有 Docker 镜像仓库。
2024-06-17 17:13:28
519
原创 大模型:文本分割模型
BERT文本分割-中文-通用领域(nlp_bert_document-segmentation_chinese-base),该模型基于wiki-zh公开语料训练,对未分割的长文本进行段落分割。提升未分割文本的可读性以及下游NLP任务的性能。
2024-06-13 00:01:55
1370
1
原创 阿里通义千问:本地部署Qwen1.5开源大模型
通义千问为阿里云研发的大语言系列模型。千问模型基于Transformer架构,在超大规模的预训练数据上进行训练得到。预训练数据类型多样,覆盖广泛,包括大量网络文本、专业书籍、代码等。同时,在预训练模型的基础之上,使用对齐机制打造了模型的chat版本。
2024-06-06 23:07:44
2236
原创 OceanBase:列存储
OceanBase 4.3 版本基于LSM-Tree 架构基础进行扩展,正式推出列存引擎,在一个架构、一个数据库上,实现了列存和行存数据存储一体化,兼顾 TP 和 AP 查询性能。
2024-05-28 19:06:05
1281
原创 大模型框架:vLLM
vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架。它利用了全新的注意力算法「PagedAttention」,提供易用、快速、便宜的LLM服务。
2024-05-24 16:56:07
2554
原创 大模型管理工具:Ollama
Ollama 是一个基于 Go 语言开发的可以本地运行大模型的开源框架,同时提供 REST API 管理和使用大模型。
2024-05-13 20:53:58
1587
1
原创 大模型管理工具:SWIFT
SWIFT(Scalable lightWeight Infrastructure for Fine-Tuning)是魔搭ModelScope开源社区推出的一套完整的轻量级训练、推理、评估和部署工具,支持200+大模型、15+多模态大模型以及10+轻量化Tuners,让AI爱好者能够使用自己的消费级显卡玩转大模型和AIGC。
2024-05-13 20:53:41
2158
1
原创 向量数据库:Chroma
Chroma是一个开源的嵌入式数据库。Chroma通过使知识(knowledge)、事实(facts)和技能(skills)可插拔,从而简化了大型语言模型(LLM)应用程序的构建。
2024-05-11 09:55:25
1527
原创 智谱AI通用大模型:本地部署ChatGLM3-6B开源大模型
ChatGLM3 是智谱AI和清华大学 KEG 实验室联合发布的新一代对话预训练模型。
2024-04-23 17:16:59
2835
原创 Python 环境管理工具:Conda
Conda 是一个开源的跨平台包管理器和环境管理系统,主要用于 Python 和 R 等数据科学与机器学习相关的编程语言环境。它是由 Anaconda 分发版提供的,但也可以独立安装。
2024-04-23 09:13:16
1403
原创 百度文心一言:官方开放API开发基础
文心一言(英文名:ERNIE Bot)是百度全新一代知识增强大语言模型,其基础是文心大模型。文心大模型基于大规模训练数据进行预训练,结合有监督精调、人类反馈的强化学习、Prompt 机制,构建生成式人工智能大模型,具备知识增强、检索增强和对话增强的技术特色。
2024-04-18 10:55:01
2699
原创 阿里通义千问:官方开放API开发基础
通义千问是由阿里云自主研发的大语言模型,用于理解和分析用户输入的自然语言,在不同领域、任务内为用户提供服务和帮助。您可以通过提供尽可能清晰详细的指令,来获取符合您预期的结果。
2024-04-17 00:29:57
7550
3
原创 智谱AI通用大模型:官方开放API开发基础
GLM-4是智谱AI发布了新一代基座大模型,整体性能相比GLM3提升60%,支持128K上下文,可根据用户意图自主理解和规划复杂指令、完成复杂任务。
2024-04-17 00:29:42
1289
原创 Apache MINA SSHD
Apache MINA SSHD(Secure Shell Daemon)是基于Apache MINA(Multipurpose Infrastructure for Network Applications)开发的一个开源的Java库,专门用于提供SSH(Secure Shell)服务。
2024-04-09 21:12:50
807
1
原创 计算机系统结构(02325)
计算机系统=硬件/固件+软件。从使用语言的角度,一台软、硬件组成的通用计算机系统可以被看成是按功能规划的多层机器组成的层次结构。
2024-03-28 20:19:04
925
原创 openGuass:极简版安装
openGauss是一款支持SQL2003标准语法,支持主备部署的高可用分布式数据库系统,业务数据存储在单个物理节点上,数据访问任务被推送到服务节点执行,通过服务器的高并发,实现对数据处理的快速响应。同时通过日志复制可以把数据复制到备机,提供数据的高可靠和读扩展。
2023-12-20 16:17:26
1082
原创 Spark-03: Spark SQL 基础编程
Spark SQL是Apache Spark的一个模块,用于处理结构化数据。它提供了两种编程抽象:DataFrame和DataSet,并作为分布式SQL查询引擎。
2023-12-05 10:19:30
646
原创 Spark-05:Spark 共享变量
共享变量允许在多个任务之间共享数据,而不是为每个任务分别复制一份变量。这样可以显著降低网络传输的开销和内存占用。Spark提供了两种类型的共享变量:广播变量(broadcast variables)和累加器(accumulators)。
2023-11-23 17:56:56
1338
原创 OceanBase:04-单机在线转分布式部署
OceanBase 数据库为单机分布式一体化架构,支持单机在线转分布式部署。当数据库集群部署在一个机房(Zone)的多台服务器(OBServer)时,实现服务器级别容灾。当集群的服务器在一个地区的多个机房中时,能够实现机房级别容灾。当集群的服务器在多个地区的多个机房中时,能够实现地区级别容灾。
2023-11-22 14:11:42
719
原创 OceanBase:OBServer节点管理
ceanBase 数据库是单进程软件,进程名为 observer。通常一台物理或者虚拟服务器运行一个 observer 进程,由 IP 和端口作为唯一标识,称之为节点。
2023-11-21 14:17:57
1243
原创 OceanBase:集群常见操作
OceanBase 数据库(OceanBase Database)是一款蚂蚁集团完全自研的企业级原生分布式数据库,在普通硬件上实现金融级高可用,首创“三地五中心”城市级故障自动无损容灾新标准,刷新 TPC-C 标准测试,单集群规模超过 1500 节点,具有云原生、强一致性、高度兼容 Oracle/MySQL 等特性
2023-11-20 17:36:32
780
原创 OceanBase:Zone管理
OceanBase 集群由若干个 Zone 组成。从物理层面来讲,一个 Zone 通常是一个独立的物理部署单元,可以是一个数据中心(IDC)或者云上的一个 Zone(可用区),也可以是一个单独的机架(Rack)。通过将 OceanBase 集群部署于不同的 Zone ,实现单个 Zone 故障时的故障隔离及快速恢复。
2023-11-19 14:56:18
757
原创 Debezium-Embedded 实时监控MySQL数据变更
Debezium连接器的操作通常是将它们部署到Kafka Connect服务,并配置一个或多个连接器来监控上游数据库,并为它们在上游数据库中看到的所有更改生成数据更改事件。这些数据更改事件被写入Kafka,在那里它们可以被许多不同的应用程序独立使用。Kafka Connect提供了出色的容错性和可扩展性,因为它作为分布式服务运行,并确保所有注册和配置的连接器始终在运行。
2023-11-15 19:09:54
1388
1
原创 ElasticSearch基本操作
这里请求路径中的_cat 表示查看的意思,indices 表示索引,所以整体含义就是查看当前 ES服务器中的所有索引,就好像 MySQL 中的 show tables 的感觉,服务器响应结果如下。在 Postman 中,向ES服务器发DELETE请求 :http://192.168.179.121:9200/shopping/_doc/1。在Postman中,向ES服务器发POST请求 :http://192.168.179.121:9200/shopping/_update/1。
2023-11-13 23:43:13
1072
1
原创 Doris:多源数据目录(Multi-Catalog)
多源数据目录(Multi-Catalog)功能,旨在能够更方便对接外部数据目录,以增强Doris的数据湖分析和联邦数据查询能力。
2023-11-11 18:53:02
3910
原创 Kafka
Apache Kafka是一个开源分布式事件流平台,也是一种高吞吐量的分布式发布订阅消息系统,被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用程序。
2023-11-10 14:47:10
1755
原创 Doris:Binlog Load导入数据
Binlog Load提供了一种使Doris增量同步用户在Mysql数据库的对数据更新操作的CDC(Change Data Capture)功能。
2023-11-08 08:50:32
1024
2
原创 Doris:MySQL数据同步到Doris的N种方式
通过编程方式,利用jdbc读取mysql中的数据,然后可以通过jdbc或者Stream Load方式插入数据到doris中。当mysql与doris服务之间无法通过网络互联时,可以通过将mysql数据导出成csv文件,然后再在doris服务器导入csv文件的方式进行同步数据。将mysql导出的csv文件上传到doris服务器之后,可以通过Stream Load和MySQL Load两种方式导入数据进doris数据库中。修改fe和be配置文件,指定jdbc_drivers_dir目录。开启服务端导入功能。
2023-11-07 14:09:32
5715
广西壮族自治区自然灾害应急能力提升工程预警指挥项目-数据治理系统和现场应急感知技术装备采购需求
2024-06-05
北海市数据治理项目软件开发及服务
2023-10-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人