- 博客(101)
- 收藏
- 关注
原创 云服务器基础设施搭建 - Node
卸载程序后,还需要手动检查和删除以下目录(如果存在),以确保完全清除。官网地址:https://nodejs.org/
2025-10-17 11:38:10
163
原创 云服务器基础设施搭建 - nvm【windows环境】
github地址:https://github.com/coreybutler/nvm-windows/releases。卸载程序后,还需要手动检查和删除以下目录(如果存在),以确保完全清除。也可通过科学上网解决。
2025-10-17 09:35:32
374
原创 大模型部署基础设施搭建 - RAGFlow
参考:https://blog.csdn.net/Y525698136/article/details/150610134。
2025-09-30 15:59:14
211
原创 大模型部署基础设施搭建 - SearXNG
参考:https://www.cnblogs.com/xiao987334176/p/18806251。
2025-09-26 12:02:11
457
原创 大模型部署基础设施搭建 - Docker
参考:https://blog.csdn.net/m0_64993796/article/details/148500026官网:https://docs.docker.com/engine/install/ubuntu/
2025-09-23 10:27:49
446
原创 大模型部署基础设施搭建 - Open WebUI
参考官网:https://docs.openwebui.com/getting-started/quick-start/
2025-08-14 16:40:11
288
原创 大模型部署基础设施搭建 - 向量数据库milvus
参考官网:https://milvus.io/docs/zh/install_standalone-docker.md#Install-Milvus-in-Docker。
2025-08-14 14:09:18
212
原创 大模型部署基础设施搭建 - Ollama
参考:https://blog.csdn.net/m0_74957057/article/details/149633032。
2025-08-14 11:43:08
331
原创 大模型基础设施搭建 - 操作系统centos7
网址:https://mirrors.aliyun.com/centos/7/isos/x86_64/
2025-07-28 16:46:58
263
原创 大数据基础设施搭建 - Doris
注意:priority_networks配置依据,执行命令 ip a查询子网网段。下载地址:https://doris.apache.org/download/执行下列命令,能查出记录的下载avx2版本,否则下载noavx2版本。需要使用mysql客户端连接doris。注意:存储目录必须手动提前创建。目的:将be和fe连接起来。分发到需要安装BE的节点。注意这里的*不要去掉。
2024-03-13 20:23:20
1117
原创 大数据基础设施搭建 - Flink
一个应用中可能有多个作业,分发器Dispatcher将每一个作业封装成一个JobMaster对象,JobMaster将每一个作业的代码执行逻辑生成一个执行图,资源管理器ResourceManager向TaskManager申请资源来执行该作业的执行操作,最终将作业交给TaskManager中的任务槽Slot来执行,作业执行完成后返回给客户端响应。在yarn的WEB-UI界面,点击任务的History位置,如果Flink历史服务器生效就会跳转到Flink历史服务器UI界面,否则会跳转到Yarn的UI界面。
2024-02-27 08:27:38
1932
原创 大数据基础设施搭建 - Redis
需要通过命令行进行开启,因为aof的备份恢复优先级高于rdb,修改配置文件需要重启redis,重启后的aof文件是空的,备份恢复时redis中就是空的,所以需要在重启redis前准备好aof文件。有序不重复,就是在set的基础上,给每个元素绑定了一个分数,按照分数由低到高排序。redis是用c写的,因此安装redis需要c语言的编译环境,即需要安装gcc。RDB为快照备份,会在备份时将内存中的所有数据持久化到磁盘的一个文件中。AOF为日志备份,会将所有写操作命令记录在一个日志文件中。
2024-01-22 20:11:23
597
原创 大数据基础设施搭建 - 数据装载
入仓时机:业务数据、日志数据都同步到HDFS后。即Sqoop同步业务全量表完成后。业务数据进入HDFS时机:全量数据每天凌晨将昨天的数据同步到HDFS昨天目录。增量数据实时同步到HDFS到binlog对应的日期目录。日志数据进入HDFS时机:实时同步到日志行为发生的日期,JSON串中的ts字段解析出来的日期。
2023-12-03 20:24:02
789
原创 大数据基础设施搭建 - 业务数据同步策略
套路:从body中拿出采集到的数据,解析出有用字段放入header中,配置文件中可以获取header中的东西。作用1:把从Kafka中获取的json串的业务表名放到header中。作用2:把从Kafka中获取的json串的ts时间戳转换成毫秒,放入header中。import com/**// 1、从body中解析json拿出想要字段 byte [ ] body = event . getBody();
2023-12-02 21:41:06
1629
1
原创 大数据基础设施搭建 - Maxwell
Maxwell需要在MySQL中存储其运行过程中的所需的一些数据,包括binlog同步的断点位置(Maxwell支持断点续传)等等,故需要在MySQL为Maxwell创建数据库及用户。授予权限2:任意库里的任意表的基础读权限(SELECT, REPLICATION CLIENT, REPLICATION SLAVE),给到maxwell用户的任意地址连接。授予权限1:把maxwell库下的所有表的ALL所有权限授予给maxwell用户的%任意的host地址连接。select_priv:查询权限。
2023-11-30 18:03:56
1477
原创 大数据基础设施搭建 - Sqoop
部署节点:在Hadoop集群的任意节点部署都可以,因为Hadoop配置文件中指出了NameNode、ResourceManager在哪台节点上,并且配置文件分发到了所有节点上!–null-non-string:如果指定列为非字符串类型,使用指定字符串替换值为null的该类列的值。–null-string:如果指定列为字符串类型,使用指定字符串替换值为null的该类列的值。–fields-terminated-by:Hdfs文本文件中,字段分隔符?–compression-codec:指定压缩格式。
2023-11-29 22:55:45
890
原创 大数据基础设施搭建 - Hive
hive元数据存储:默认是元数据存储于hive内置的derby数据库,是用Java写的。生产中使用独立服务模式,因为在嵌入式模式下,每个Hive CLI都需要直接连接元数据库,当Hive CLI较多时,数据库压力会比较大。如果配置文件中有此项配置,说明hive在连接元数据的时候需要走第三方服务thrift,必须启动独立服务模式metastore服务!有两种提供服务的方式,分别是嵌入式模式和独立服务模式。hive元数据概述:记录了hive中表的名称、列名、数据类型、分区信息、数据存储路径等。
2023-11-24 15:50:04
2783
原创 大数据基础设施搭建 - Flume
作用:拦截events,经拦截器处理,输出处理后的events。开发:创建maven项目,打成jar包形式上传到flume所在机器作用:按照kafka消息中的时间字段,决定消息存储到hdfs的哪个文件中。import com/*** 作用:获取kafka中时间戳字段,放入event头中,flume写入hdfs时,从头部获取时间,作为该event放入hdfs的文件夹名称。
2023-11-23 13:06:21
2894
原创 大数据基础设施搭建 - Kafka(with ZooKeeper)
Kafka官网:https://kafka.apache.org/introKafka是Scala开发的,运行依赖JVM,所以安装Kafka前需要先安装JDK。
2023-11-21 14:01:27
1219
原创 大数据基础设施搭建 - ZooKeeper
内容:zookeeper的数据存储路径/myid文件存放路径。文件必须在配置的dataDir目录下。注意:ZooKeeper依赖JDK。必须修改,否则配置文件不起作用。文件名称必须是myid。内容:增加集群节点配置。
2023-11-19 20:08:23
574
原创 大数据基础设施搭建 - MySQL
可能会报缺少依赖的错误!执行下面命令即可: [mall@mall mysql]$ sudo yum install libaio。
2023-11-18 19:22:47
466
1
原创 大数据基础设施搭建 - Hadoop
代理配置:hadoop.proxyuser.hadoop.hosts必须配,hadoop.proxyuser.hadoop.groups和hadoop.proxyuser.hadoop.users至少配置一个。hadoop.proxyuser.hadoop.hosts和hadoop.proxyuser.hadoop.users:本案例配置表示允许用户hadoop,在任意主机节点,代理任意用户。该配置文件位于下面的JAR文件中:hadoop-mapreduce-client-core-x.x.x.jar。
2023-11-17 22:53:02
1917
1
原创 大数据基础设施搭建 - 阿里云Linux环境
目的: 按i键切换至编辑模式,在# Example datasource config内容上增加以下配置,关闭cloud-init中的自动配置网络的参数,避免网卡配置文件内容被覆盖。描述:按i键切换至编辑模式,将BOOTPROTO的值修改为static,并将以上步骤中记录的IP地址、网关信息、子网掩码填写到该配置文件中,修改之后的内容如下所示。linux系统默认ip地址是动态获取的,如果不配置ip,每次重启服务器,ip都会改变,这对于访问系统中的项目是很不友好的。目的:查看实例的IP地址、子网掩码。
2023-11-16 10:43:11
321
原创 SparkSQL - 常见问题
自动广播原理:orc格式的表会对数据进行压缩,如果压缩比过大,会导致广播时间过长。自动广播原因:大表join小表时,小表大小在阈值以下,就会自动广播小表到每个excutor。参考资料:https://www.ai2news.com/blog/3041168/TODO:如何查看spark集群的参数设置(搞一套自己的集群,自己试试看怎么查看)(3)广播变量的数据量是否太大(查看集群配置的自动广播阈值大小)(2)广播超时时间阈值太小(查看集群配置的广播超时时间阈值)(1)关闭自动广播或调低自动广播阈值。
2023-11-02 11:48:55
1932
原创 数据仓库工具箱-第6章-订单管理
就是那些看起来像是事实表的一个维度关键字,但实际上并没有对应的维度表,就是维度属性存储到事实表中,这种存储到事实表中的维度列被称为退化维度。因为处于事实表中的订单号没有与维度表连接,所以它是一种退化维度。
2023-04-07 20:22:17
797
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅