自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(101)
  • 收藏
  • 关注

原创 云服务器基础设施搭建 - Node

卸载程序后,还需要手动检查和删除以下目录(如果存在),以确保完全清除。官网地址:https://nodejs.org/

2025-10-17 11:38:10 163

原创 云服务器基础设施搭建 - nvm【windows环境】

github地址:https://github.com/coreybutler/nvm-windows/releases。卸载程序后,还需要手动检查和删除以下目录(如果存在),以确保完全清除。也可通过科学上网解决。

2025-10-17 09:35:32 374

原创 云服务器基础设施搭建 - 宝塔

系统:Ubuntu 22.04。

2025-10-16 13:35:36 137

原创 大模型部署基础设施搭建 - ComfyUI

【代码】大模型部署基础设施搭建 - ComfyUI。

2025-10-09 16:37:03 244

原创 大模型部署基础设施搭建 - RAGFlow

参考:https://blog.csdn.net/Y525698136/article/details/150610134。

2025-09-30 15:59:14 211

原创 大模型部署基础设施搭建 - SearXNG

参考:https://www.cnblogs.com/xiao987334176/p/18806251。

2025-09-26 12:02:11 457

原创 大模型部署基础设施搭建 - Vllm

参考:https://www.cnblogs.com/shunzi115/p/18990132。

2025-09-24 14:44:12 487

原创 大模型部署基础设施搭建 - Dify

官方参考文档:https://github.com/langgenius/dify#

2025-09-23 17:06:19 374

原创 大模型部署基础设施搭建 - Docker

参考:https://blog.csdn.net/m0_64993796/article/details/148500026官网:https://docs.docker.com/engine/install/ubuntu/

2025-09-23 10:27:49 446

原创 大模型部署基础设施搭建 - LlamaFactory

参考:https://llamafactory.readthedocs.io/

2025-08-19 11:27:58 220

原创 大模型部署基础设施搭建 - Open WebUI

参考官网:https://docs.openwebui.com/getting-started/quick-start/

2025-08-14 16:40:11 288

原创 大模型部署基础设施搭建 - 向量数据库milvus

参考官网:https://milvus.io/docs/zh/install_standalone-docker.md#Install-Milvus-in-Docker。

2025-08-14 14:09:18 212

原创 大模型部署基础设施搭建 - Ollama

参考:https://blog.csdn.net/m0_74957057/article/details/149633032。

2025-08-14 11:43:08 331

原创 大模型基础设施搭建 - 操作系统centos7

网址:https://mirrors.aliyun.com/centos/7/isos/x86_64/

2025-07-28 16:46:58 263

原创 VB解除excel保护工作表

【代码】VB解除excel保护工作表。

2025-07-24 13:13:43 319

原创 Java调用C++代码

Java调用C++

2025-04-07 10:35:29 328

原创 大数据基础设施搭建 - Spark

到YARN WEB页面查看任务提交情况。

2024-04-01 21:23:00 747

原创 大数据基础设施搭建 - Doris

注意:priority_networks配置依据,执行命令 ip a查询子网网段。下载地址:https://doris.apache.org/download/执行下列命令,能查出记录的下载avx2版本,否则下载noavx2版本。需要使用mysql客户端连接doris。注意:存储目录必须手动提前创建。目的:将be和fe连接起来。分发到需要安装BE的节点。注意这里的*不要去掉。

2024-03-13 20:23:20 1117

原创 大数据基础设施搭建 - Flink

一个应用中可能有多个作业,分发器Dispatcher将每一个作业封装成一个JobMaster对象,JobMaster将每一个作业的代码执行逻辑生成一个执行图,资源管理器ResourceManager向TaskManager申请资源来执行该作业的执行操作,最终将作业交给TaskManager中的任务槽Slot来执行,作业执行完成后返回给客户端响应。在yarn的WEB-UI界面,点击任务的History位置,如果Flink历史服务器生效就会跳转到Flink历史服务器UI界面,否则会跳转到Yarn的UI界面。

2024-02-27 08:27:38 1932

原创 Java抽取Hive、HDFS元数据信息

* 元数据表附加信息 服务实现类*

2024-01-30 11:00:05 1182

原创 大数据基础设施搭建 - Hbase

首先保证Zookeeper和Hadoop正常运行。

2024-01-23 16:15:53 1420

原创 大数据基础设施搭建 - Redis

需要通过命令行进行开启,因为aof的备份恢复优先级高于rdb,修改配置文件需要重启redis,重启后的aof文件是空的,备份恢复时redis中就是空的,所以需要在重启redis前准备好aof文件。有序不重复,就是在set的基础上,给每个元素绑定了一个分数,按照分数由低到高排序。redis是用c写的,因此安装redis需要c语言的编译环境,即需要安装gcc。RDB为快照备份,会在备份时将内存中的所有数据持久化到磁盘的一个文件中。AOF为日志备份,会将所有写操作命令记录在一个日志文件中。

2024-01-22 20:11:23 597

原创 数仓建设 - 维度建模 - DIM维度

1、上传日期数据文件到HDFS的临时目录 /tmp/tmp_dim_date_info/

2023-12-07 15:17:57 1086

原创 大数据基础设施搭建 - 数据装载

入仓时机:业务数据、日志数据都同步到HDFS后。即Sqoop同步业务全量表完成后。业务数据进入HDFS时机:全量数据每天凌晨将昨天的数据同步到HDFS昨天目录。增量数据实时同步到HDFS到binlog对应的日期目录。日志数据进入HDFS时机:实时同步到日志行为发生的日期,JSON串中的ts字段解析出来的日期。

2023-12-03 20:24:02 789

原创 大数据基础设施搭建 - 业务数据同步策略

套路:从body中拿出采集到的数据,解析出有用字段放入header中,配置文件中可以获取header中的东西。作用1:把从Kafka中获取的json串的业务表名放到header中。作用2:把从Kafka中获取的json串的ts时间戳转换成毫秒,放入header中。import com/**// 1、从body中解析json拿出想要字段 byte [ ] body = event . getBody();

2023-12-02 21:41:06 1629 1

原创 SQL解惑 - 谜题2

处理连续问题标准步骤:(1)按雇员分组,按日期排序,得到rn(2)用日期减rn。

2023-12-02 12:33:21 803

原创 大数据基础设施搭建 - Maxwell

Maxwell需要在MySQL中存储其运行过程中的所需的一些数据,包括binlog同步的断点位置(Maxwell支持断点续传)等等,故需要在MySQL为Maxwell创建数据库及用户。授予权限2:任意库里的任意表的基础读权限(SELECT, REPLICATION CLIENT, REPLICATION SLAVE),给到maxwell用户的任意地址连接。授予权限1:把maxwell库下的所有表的ALL所有权限授予给maxwell用户的%任意的host地址连接。select_priv:查询权限。

2023-11-30 18:03:56 1477

原创 大数据基础设施搭建 - Sqoop

部署节点:在Hadoop集群的任意节点部署都可以,因为Hadoop配置文件中指出了NameNode、ResourceManager在哪台节点上,并且配置文件分发到了所有节点上!–null-non-string:如果指定列为非字符串类型,使用指定字符串替换值为null的该类列的值。–null-string:如果指定列为字符串类型,使用指定字符串替换值为null的该类列的值。–fields-terminated-by:Hdfs文本文件中,字段分隔符?–compression-codec:指定压缩格式。

2023-11-29 22:55:45 890

原创 大数据基础设施搭建 - Hive

hive元数据存储:默认是元数据存储于hive内置的derby数据库,是用Java写的。生产中使用独立服务模式,因为在嵌入式模式下,每个Hive CLI都需要直接连接元数据库,当Hive CLI较多时,数据库压力会比较大。如果配置文件中有此项配置,说明hive在连接元数据的时候需要走第三方服务thrift,必须启动独立服务模式metastore服务!有两种提供服务的方式,分别是嵌入式模式和独立服务模式。hive元数据概述:记录了hive中表的名称、列名、数据类型、分区信息、数据存储路径等。

2023-11-24 15:50:04 2783

原创 大数据基础设施搭建 - Flume

作用:拦截events,经拦截器处理,输出处理后的events。开发:创建maven项目,打成jar包形式上传到flume所在机器作用:按照kafka消息中的时间字段,决定消息存储到hdfs的哪个文件中。import com/*** 作用:获取kafka中时间戳字段,放入event头中,flume写入hdfs时,从头部获取时间,作为该event放入hdfs的文件夹名称。

2023-11-23 13:06:21 2894

原创 大数据基础设施搭建 - Kafka(with ZooKeeper)

Kafka官网:https://kafka.apache.org/introKafka是Scala开发的,运行依赖JVM,所以安装Kafka前需要先安装JDK。

2023-11-21 14:01:27 1219

原创 大数据基础设施搭建 - ZooKeeper

内容:zookeeper的数据存储路径/myid文件存放路径。文件必须在配置的dataDir目录下。注意:ZooKeeper依赖JDK。必须修改,否则配置文件不起作用。文件名称必须是myid。内容:增加集群节点配置。

2023-11-19 20:08:23 574

原创 大数据基础设施搭建 - MySQL

可能会报缺少依赖的错误!执行下面命令即可: [mall@mall mysql]$ sudo yum install libaio。

2023-11-18 19:22:47 466 1

原创 大数据基础设施搭建 - Hadoop

代理配置:hadoop.proxyuser.hadoop.hosts必须配,hadoop.proxyuser.hadoop.groups和hadoop.proxyuser.hadoop.users至少配置一个。hadoop.proxyuser.hadoop.hosts和hadoop.proxyuser.hadoop.users:本案例配置表示允许用户hadoop,在任意主机节点,代理任意用户。该配置文件位于下面的JAR文件中:hadoop-mapreduce-client-core-x.x.x.jar。

2023-11-17 22:53:02 1917 1

原创 大数据基础设施搭建 - JDK

在root账号下操作,/目录下只能用root账号创建目录。

2023-11-16 23:09:13 654

原创 大数据基础设施搭建 - 阿里云Linux环境

目的: 按i键切换至编辑模式,在# Example datasource config内容上增加以下配置,关闭cloud-init中的自动配置网络的参数,避免网卡配置文件内容被覆盖。描述:按i键切换至编辑模式,将BOOTPROTO的值修改为static,并将以上步骤中记录的IP地址、网关信息、子网掩码填写到该配置文件中,修改之后的内容如下所示。linux系统默认ip地址是动态获取的,如果不配置ip,每次重启服务器,ip都会改变,这对于访问系统中的项目是很不友好的。目的:查看实例的IP地址、子网掩码。

2023-11-16 10:43:11 321

原创 数据仓库工具箱-第三章-零售业务

业务方目的(分析决策) ========》 星型模型。

2023-11-07 17:03:25 1716

原创 SparkSQL - 常见问题

自动广播原理:orc格式的表会对数据进行压缩,如果压缩比过大,会导致广播时间过长。自动广播原因:大表join小表时,小表大小在阈值以下,就会自动广播小表到每个excutor。参考资料:https://www.ai2news.com/blog/3041168/TODO:如何查看spark集群的参数设置(搞一套自己的集群,自己试试看怎么查看)(3)广播变量的数据量是否太大(查看集群配置的自动广播阈值大小)(2)广播超时时间阈值太小(查看集群配置的广播超时时间阈值)(1)关闭自动广播或调低自动广播阈值。

2023-11-02 11:48:55 1932

原创 七天内连续登陆天数

近七天连续登录天数

2023-08-31 20:11:43 293

原创 数据仓库工具箱-第6章-订单管理

就是那些看起来像是事实表的一个维度关键字,但实际上并没有对应的维度表,就是维度属性存储到事实表中,这种存储到事实表中的维度列被称为退化维度。因为处于事实表中的订单号没有与维度表连接,所以它是一种退化维度。

2023-04-07 20:22:17 797 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除