- 博客(51)
- 收藏
- 关注
原创 智谱AI通用大模型:本地部署ChatGLM3-6B开源大模型
ChatGLM3 是智谱AI和清华大学 KEG 实验室联合发布的新一代对话预训练模型。
2024-04-23 17:16:59 1036
原创 Python 环境管理工具:Conda
Conda 是一个开源的跨平台包管理器和环境管理系统,主要用于 Python 和 R 等数据科学与机器学习相关的编程语言环境。它是由 Anaconda 分发版提供的,但也可以独立安装。
2024-04-23 09:13:16 748
原创 百度文心一言:官方开放API开发基础
文心一言(英文名:ERNIE Bot)是百度全新一代知识增强大语言模型,其基础是文心大模型。文心大模型基于大规模训练数据进行预训练,结合有监督精调、人类反馈的强化学习、Prompt 机制,构建生成式人工智能大模型,具备知识增强、检索增强和对话增强的技术特色。
2024-04-18 10:55:01 1790
原创 阿里通义千问:官方开放API开发基础
通义千问是由阿里云自主研发的大语言模型,用于理解和分析用户输入的自然语言,在不同领域、任务内为用户提供服务和帮助。您可以通过提供尽可能清晰详细的指令,来获取符合您预期的结果。
2024-04-17 00:29:57 1160
原创 智谱AI通用大模型:官方开放API开发基础
GLM-4是智谱AI发布了新一代基座大模型,整体性能相比GLM3提升60%,支持128K上下文,可根据用户意图自主理解和规划复杂指令、完成复杂任务。
2024-04-17 00:29:42 502
原创 Apache MINA SSHD
Apache MINA SSHD(Secure Shell Daemon)是基于Apache MINA(Multipurpose Infrastructure for Network Applications)开发的一个开源的Java库,专门用于提供SSH(Secure Shell)服务。
2024-04-09 21:12:50 549 1
原创 离散数学(02324)
离散数学(Discrete mathematics)是研究离散量的结构及其相互关系的数学学科,是现代数学的一个重要分支。离散的含义是指不同的连接在一起的元素,主要是研究基于离散量的结构和相互间的关系,其对象一般是有限个或可数个元素。离散数学在各学科领域,特别在计算机科学与技术领域有着广泛的应用,同时离散数学也是计算机专业的专业课程,如程序设计语言、数据结构、操作系统、编译技术、人工智能、数据库、算法设计与分析、理论计算机科学基础等必不可少的先行课程。
2024-03-28 20:20:43 616
原创 计算机系统结构(02325)
计算机系统=硬件/固件+软件。从使用语言的角度,一台软、硬件组成的通用计算机系统可以被看成是按功能规划的多层机器组成的层次结构。
2024-03-28 20:19:04 523
原创 openGuass:极简版安装
openGauss是一款支持SQL2003标准语法,支持主备部署的高可用分布式数据库系统,业务数据存储在单个物理节点上,数据访问任务被推送到服务节点执行,通过服务器的高并发,实现对数据处理的快速响应。同时通过日志复制可以把数据复制到备机,提供数据的高可靠和读扩展。
2023-12-20 16:17:26 464
原创 Spark-03: Spark SQL 基础编程
Spark SQL是Apache Spark的一个模块,用于处理结构化数据。它提供了两种编程抽象:DataFrame和DataSet,并作为分布式SQL查询引擎。
2023-12-05 10:19:30 530
原创 Spark-05:Spark 共享变量
共享变量允许在多个任务之间共享数据,而不是为每个任务分别复制一份变量。这样可以显著降低网络传输的开销和内存占用。Spark提供了两种类型的共享变量:广播变量(broadcast variables)和累加器(accumulators)。
2023-11-23 17:56:56 1231
原创 OceanBase:04-单机在线转分布式部署
OceanBase 数据库为单机分布式一体化架构,支持单机在线转分布式部署。当数据库集群部署在一个机房(Zone)的多台服务器(OBServer)时,实现服务器级别容灾。当集群的服务器在一个地区的多个机房中时,能够实现机房级别容灾。当集群的服务器在多个地区的多个机房中时,能够实现地区级别容灾。
2023-11-22 14:11:42 675
原创 OceanBase:OBServer节点管理
ceanBase 数据库是单进程软件,进程名为 observer。通常一台物理或者虚拟服务器运行一个 observer 进程,由 IP 和端口作为唯一标识,称之为节点。
2023-11-21 14:17:57 1080
原创 OceanBase:集群常见操作
OceanBase 数据库(OceanBase Database)是一款蚂蚁集团完全自研的企业级原生分布式数据库,在普通硬件上实现金融级高可用,首创“三地五中心”城市级故障自动无损容灾新标准,刷新 TPC-C 标准测试,单集群规模超过 1500 节点,具有云原生、强一致性、高度兼容 Oracle/MySQL 等特性
2023-11-20 17:36:32 576
原创 OceanBase:Zone管理
OceanBase 集群由若干个 Zone 组成。从物理层面来讲,一个 Zone 通常是一个独立的物理部署单元,可以是一个数据中心(IDC)或者云上的一个 Zone(可用区),也可以是一个单独的机架(Rack)。通过将 OceanBase 集群部署于不同的 Zone ,实现单个 Zone 故障时的故障隔离及快速恢复。
2023-11-19 14:56:18 668
原创 Debezium-Embedded 实时监控MySQL数据变更
Debezium连接器的操作通常是将它们部署到Kafka Connect服务,并配置一个或多个连接器来监控上游数据库,并为它们在上游数据库中看到的所有更改生成数据更改事件。这些数据更改事件被写入Kafka,在那里它们可以被许多不同的应用程序独立使用。Kafka Connect提供了出色的容错性和可扩展性,因为它作为分布式服务运行,并确保所有注册和配置的连接器始终在运行。
2023-11-15 19:09:54 1278 1
原创 ElasticSearch基本操作
这里请求路径中的_cat 表示查看的意思,indices 表示索引,所以整体含义就是查看当前 ES服务器中的所有索引,就好像 MySQL 中的 show tables 的感觉,服务器响应结果如下。在 Postman 中,向ES服务器发DELETE请求 :http://192.168.179.121:9200/shopping/_doc/1。在Postman中,向ES服务器发POST请求 :http://192.168.179.121:9200/shopping/_update/1。
2023-11-13 23:43:13 969 1
原创 Doris:多源数据目录(Multi-Catalog)
多源数据目录(Multi-Catalog)功能,旨在能够更方便对接外部数据目录,以增强Doris的数据湖分析和联邦数据查询能力。
2023-11-11 18:53:02 2501
原创 Kafka
Apache Kafka是一个开源分布式事件流平台,也是一种高吞吐量的分布式发布订阅消息系统,被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用程序。
2023-11-10 14:47:10 1513
原创 Doris:Binlog Load导入数据
Binlog Load提供了一种使Doris增量同步用户在Mysql数据库的对数据更新操作的CDC(Change Data Capture)功能。
2023-11-08 08:50:32 772 2
原创 Doris:MySQL数据同步到Doris的N种方式
通过编程方式,利用jdbc读取mysql中的数据,然后可以通过jdbc或者Stream Load方式插入数据到doris中。当mysql与doris服务之间无法通过网络互联时,可以通过将mysql数据导出成csv文件,然后再在doris服务器导入csv文件的方式进行同步数据。将mysql导出的csv文件上传到doris服务器之后,可以通过Stream Load和MySQL Load两种方式导入数据进doris数据库中。修改fe和be配置文件,指定jdbc_drivers_dir目录。开启服务端导入功能。
2023-11-07 14:09:32 4357
原创 Doris:Stream Load导入数据
Stream load 是一个同步的导入方式,用户通过发送 HTTP 协议发送请求将本地文件或数据流导入到 Doris 中。Stream load 主要适用于导入本地文件,或通过程序导入数据流中的数据。
2023-11-03 21:01:01 1411
原创 OceanBase:03-集群部署
OceanBase 数据库(OceanBase Database)是一款蚂蚁集团完全自研的企业级原生分布式数据库,在普通硬件上实现金融级高可用,首创“三地五中心”城市级故障自动无损容灾新标准,刷新 TPC-C 标准测试,单集群规模超过 1500 节点,具有云原生、强一致性、高度兼容 Oracle/MySQL 等特性
2023-11-01 16:40:34 1380
原创 数据结构(02331)
1.栈是限定在表的一端进行插入和删除运算的线性表。将插入、删除的一端称为栈顶(top),另一端称为栈底。遵循的原则是后进先出,也称为LIFO表。2.栈的运算(1)InitStack(&S):置空栈,构造一个空栈S(1)StackEmpty(S):判栈空,若栈S为空栈,则返回TRUE,否则返回FALSE(1)StackFull(S):判栈满,若栈S为满栈,则返回TRUE,否则返回FALSE(1)Push(&S,x):进栈,将元素x插入S栈的栈顶。
2023-10-27 23:32:57 432
原创 Doris:物化视图
物化视图是将预先计算(根据定义好的 SELECT 语句)好的数据集,存储在 Doris 中的一个特殊的表。物化视图的出现主要是为了满足用户,既能对原始明细数据的任意维度分析,也能快速的对固定维度进行分析查询。
2023-10-24 10:03:27 729
原创 操作系统(02326)
■进程是具有一定独立功能的程序在某个数据集合上的一次运行活动,是系统进行资源分配和调度的一个独立单位。■从操作系统看,进程分为系统进程和用户进程。系统进程的优先级高于一般用户的优先级。1.进程与程序的联系和区别(1)进程与程序的联系●程序是构成进程的组成部分之一。●一个进程的运行目标是执行它所对应的程序。●从静态的角度看,进程是由程序、数据和进程控制块(PCB)三部分组成。(2)进程与程序的区别●进程是动态的,程序是静态的。
2023-10-22 16:24:47 142
原创 计算机网络原理(04741)
协议是计算机网络通信实体之间在数据交换过程中需要遵循的规则或约定,是计算机网络有序运行的重要保证。任何一个协议都会显式或隐式地定义三个基本的要素:语法、语义和时序,称为协议三要素。1)语法:语法定义实体之间交换信息的格式与结构,或者定义实体之间传输信号的电平等。2)语义:语义定义实体之间交换信息中需要包含哪些控制信息,这些信息的具体含义,以及针对不同含义的控制信息,接收信息端应如何相应。还需要定义彼此采用何种差错编码以及采取何种差错处理机制等。
2023-10-21 17:55:58 260
原创 Spark-02: RDD编程基础
RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。RDD算子分为转换(Transformation)算子和行动( Action)算子,程序运行到转换算子时并不会马上执行转算子,只有碰到行动算子才会真正执行转换算子。
2023-10-11 22:04:17 202
原创 Spark-01: Spark编程基础
Apache Spark是一个通用的、基于内存的分布式计算引擎,用于大规模数据处理。它的核心原理是将数据分散到多台计算机上并在这些计算机上并行执行计算任务,从而实现高效的数据处理和分析。
2023-10-10 00:31:37 156
北海市数据治理项目软件开发及服务
2023-10-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人