海若[MATRIX]-CSDN博客

原创 Dify部署及知识库体验

Dify 是一个开源的大语言模型（LLM）应用开发平台，旨在简化生成式 AI 应用的构建、部署和管理。其名称源于“Define + Modify”，强调通过持续改进实现 AI 应用的灵活定制。用于创建智能体，集成大模型用于上传知识库文件，可以使文本、pdf等。

2025-04-03 14:23:15 612

原创 LlamaFactory部署及模型微调【win10环境】

LLaMA-Factory，全称 Large Language Model Factory，旨在简化大模型的微调过程，帮助开发者快速适应特定任务需求，提升模型表现。它支持多种预训练模型和微调算法，适用于智能客服、语音识别、机器翻译等多种应用场景。

2025-03-25 11:15:33 1018

原创 deepseek客户端对话工具chatBox安装【win10】

Chatbox 是一款专注于本地化部署与隐私保护的桌面端 AI 应用，支持多种前沿大型语言模型（LLMs），旨在通过高效、安全的交互方式提升用户生产力。

2025-03-05 15:25:36 1227

ollama通过融合开源社区的模块化设计理念（如Docker容器化部署）和商业公司的API标准化经验，实现了学术研究与工程实践的有效结合。其技术路线验证了低成本AI本地化部署的可行性，为后续大模型研究提供了可复用的方法论框架。参数量为320亿（32B），介于中小型模型（7B-14B）与超大规模模型（671B）之间，属于轻量化设计的“残血版”。专注资源效率：相比满血版671B模型（需专业服务器和百万级硬件成本），32B版本可在消费级GPU（如RTX 3090 24G显存）上运行，显存占用约22-24GB。

2025-03-05 14:36:24 1784

原创一文搞懂什么是数据湖(data lake)？

data lake数据湖，最早由Pentaho的CTO,James Dixon发明。他在博客中这样描述数据湖：如果你把数据集市看作是一家售卖干净的、规整包装的、便于消费的瓶装水的商店，那么数据湖就是更自然状态下的一大片水域。数据湖的内容从一个源头流入，各类用户可以前来检查，探索或者取样。数据湖最重要的特点有两个，第一个是自然，第二个是可以被各类用户使用。我们先讲何为自然，自然在这里指自然而然，未经处理，原始状态。就像一大片湖水一样，原生态。类比到数据，就是原生的数据，未经任何转换和加工。那么我们

2022-01-21 11:37:43 4150

原创 Matplotlib基本操作

matplotlib 是一个广泛使用的 Python 图形库，用于生成静态、动态和交互式的可视化图表。它最初由 John D. Hunter 创建，并首次发布于2003年。matplotlib 提供了一个面向对象的 API，允许用户创建多种类型的图表，包括线图、散点图、直方图、功率谱、条形图、误差图、饼图等。灵活性：用户可以控制线条样式、字体属性、布局调整等细节。输出格式：支持多种图形输出格式，如 PNG、PDF、SVG、EPS 和 PGF。

2024-08-21 18:25:07 505 1

原创 Numpy基本操作

NumPy 是一个用于 Python 编程语言的开源库，它的主要功能是支持大型多维数组和矩阵，并提供了大量的数学函数来操作这些数组。NumPy 是 Python 科学计算生态系统的核心组成部分之一，广泛应用于数据分析、科学计算、机器学习等领域。主要特点高性能数组操作：NumPy 提供了一种高效的多维数组对象，以及用于对其进行操作的函数。这些数组在内存中是连续的，因此可以高效地进行访问和操作。广播功能：NumPy 支持数组间的广播操作，即使数组的形状不完全匹配也能执行数学运算。

2024-08-21 11:33:54 1131

原创 pandans读写分析csv文件

CSV 文件（Comma-Separated Values，逗号分隔值文件）是一种常用的数据存储格式，用于存储表格数据。CSV 文件通常包含一系列记录，每个记录由字段组成，字段之间通过逗号或其他字符分隔。每行通常代表一条记录，而每个字段则代表记录中的某个属性或值。Pandas 是一个强大的 Python 库，主要用于数据处理和数据分析。pandans是一个非常强大的二维表格处理库，数据量在1GB以下时，处理分析起来很方便；如果数据量较大，可以将数据导入到mysql、hive等数据库进行分析。

2024-08-20 18:45:59 442

原创 netCDF文件预览（nc格式）

（4）在“系统变量”区域点击“新建”，创建一个新的变量JAVA_HOME，变量值为JDK的安装路径，例如：D:\DevelopENV\java\jdk-11.0.16。（1）找到JDK安装目录下的bin文件夹，例如：D:\DevelopENV\java\jdk-11.0.16\bin。（6）在“编辑环境变量”窗口，点击“新建”，添加%JAVA_HOME%\bin。（5）在“系统变量”区域找到名为Path的变量，选择它，然后点击“编辑”。（2）右键点击“我的电脑”或者“此电脑”，选择“属性”。

2024-08-16 19:38:58 981

原创 netCDF文件读写处理

NetCDF 是一组软件库和自描述、独立于机器的数据格式，支持创建、访问和共享面向数组的科学数据。NetCDF 由Unidata开发和维护。Unidata 提供用于地球科学教育和研究的数据和软件工具。Unidata 是大学大气研究公司 ( UCAR ) 社区计划 ( UCP ) 的一部分。Unidata 主要由美国国家科学基金会资助。NetCDF 主页位于https://www.unidata.ucar.edu/software/netcdf/。

2024-08-16 18:57:59 767

原创 spring aop的优劣

博主认为java spring的aop切面编程，类似于python的装饰器，方便将日志记录、测试等通用功能提取，在不改变原来代码的基础上增强功能。部分单一需求场景适用，对于复杂的业务场景并不能总是适用，一味的追求aop反而会带来很多副作用。因此，aop可以作为一种设计模式去参考，而不能作为一种必选方式应用的日常的架构设计，程序开发中，否则会适得其反。

2024-08-07 08:57:12 1004

原创 rust读取csv文件，匹配搜索字符

【代码】rust读取csv文件，匹配搜索字符。

2024-08-04 01:28:37 537

原创 C++计算二维坐标欧式距离

在欧几里得空间中，点x =(x1,…,xn)和 y =(y1,…,yn)之间的欧氏距离为。该公式常用在机器学习场景，用于距离计算，KNN算法等。

2024-08-03 15:16:13 654

原创 python3.10安装geopandans实战笔记

参见博客：[https://blog.csdn.net/qq_34321590/article/details/122180173]shapely-2.0.2-cp310-cp310-win_amd64.whl【手动下载】Fiona-1.8.21-cp310-cp310-win_amd64.whl【手动下载】GDAL-3.4.3-cp310-cp310-win_amd64.whl【手动下载】手动离线安装shapely。手动离线安装fiona。在线安装pyproj。手动离线安装gadl。

2024-08-02 17:38:38 558

原创 js脚本在html页面中的位置

head、body、body并列、html并列、外部都可以。1.js在html中的位置有哪些。放置在html文件同级目录。

2024-07-29 13:34:38 284

原创 mybatis查询数据字段返回空值

查询后brand_name/company_name为空。带下划线的字段，都会返回空值，应该是字段映射出了问题。在配置文件中添加下划线自动映射为驼峰。数据苦衷实际存储字段全不为空。再次查询，字段正常返回。

2024-07-26 18:36:25 663

原创 mybatis插入mysql数据:中文乱码

猜测是未指定编码造成的，在配置文件mybatis-config.xml添加配置。再次执行插入动作，不再乱码。中文字段乱码，不能正常显示。

2024-07-26 15:54:00 710 1

原创 pytorch2部署（gpu版）

解压后将下面这些文件，拷贝到cuda安装目录 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.1。3.安装pytorch-gpu版本。可以避免不同项目，版本不兼容问题。7.检验gpu是否可用。2.1 虚拟环境好处。

2023-06-04 11:49:36 389

原创 matlab函数编译为jar包的方法

1.部署生产本地需要部署本地最小化运行环境（去matlab官网下载：https://ww2.mathworks.cn/products/compiler/matlab-runtime.html）2.调试需要复制matlab中的库放到项目可识别的路径（javabuilder.jar）

2023-06-04 10:17:35 816

原创 break和continue区别演示

continue和break通常用来控制循环的执行，本文将用两个实例来说明二者的区别。2.continue演示i < 10;i ++) {System . out . println("大循环：" + i);j < 10;} } } }大循环：0012456789大循环：1012456789大循环：2012456789大循环：3012456789大循环：401245。

2022-12-23 13:25:56 353

原创 hive三表关联实验

三表关联，注意关联字段，不注意，会丢失想要留下的数据。

2022-12-19 10:21:14 978

原创手写常见23设计模式

【1】Erich Gamma, Richard Helm, Ralph Johnson, John Vlissides.设计模式。如果你要开发一个框架，系统，那一定要考虑设计模式，使你的框架有松散的结构、好的扩展性、低的耦合性以及较好的易用性。常见业务开发可适当考虑设计模式，从而使自己开发的业务有一定的扩展性；手写了常见23种设计模式存在github仓库，以供指正、参考、借鉴。设计模式，应该从场景和业务出发，做出合理的选择。脚本之流无需考虑设计模式，多为一次性使用；

2022-11-04 13:50:25 481

原创 Hive自定函数UDTF开发部署实战

1.什么时候用UDTF你可能会遇到下面这样的json字符串解析{"a":[{},{}，{}]，"b":{},"c":0, "d":null, "e": "lll",}假如，让你把字段a的数组炸裂成多行，再加一条，去掉数组的第1个元素。想一下，你要如何完成这个需求？此时，如果你使用hive提供的get_json_object或者json_tuple，甚至你再用一些nvl等函数，你发现很难解析出你想要的数据，即便勉强实现，你会发现解析效率很低，原因后面会讲到。2.开发自定义函数UDTF2

2022-10-19 18:07:47 850

原创 hive解析json字段

业务中尝尝会遇到解析json字段的情况，毕竟json是大家使用最广泛的对象传递数据结构。解析单个key用GET_JSON_OBJECT（）函数，批量解析多个key用json_tuple()函数。

2022-10-13 16:57:52 1168

原创 flink1.13报错：The file STDOUT does not exist on the TaskExecutor

该报错主要是找不到STDOUT文件,原因是程序中没有sout输出，当你去web-ui点击stdout目录，就会报一个这儿样的接口请求错误，并不影响程序运行，可忽略。2.如果没有sout输出，不要点击stdout目录。1.修复flink runtime源码。3.随便加一点sout输出在程序里。......

2022-08-30 11:41:48 5796

原创 flink报错:Exception: Cannot parse input: expected \t before: \\N\t

腾讯云Oceanus1.13(对应flink1.13）centos7.5jdk8。

2022-08-23 17:18:01 2687

原创 idea导入新的maven项目

点击file,在弹出的对话框中点击项目结构。

2022-07-28 23:23:31 497

原创 log4j2日志输出到控制台-Maven工程

Log4J 内置的标准日志级别*如果默认的等级不能满足你的开发需求，可以自定义日志输出等级。在使用时通过 Logger.log()方法调用自定义日志级别配置log4j2.xml文件2.2 添加maven依赖3.实战测试3.1 测试类3.2 运行结果展示log4j日志管理框架可以很好的管理输出的日志内容，在调试，开发，运行等不同阶段配置不同的日志等级，有效提高了开发效率。log4j还可以配置日志输出到文件、数据库、邮件等位置，有需要的小伙伴自行探索一下，推荐参阅官方文档。https:

2022-07-07 17:03:23 2241

原创 Flink报错：Error: A JNI error has occurred, please check your installation and try again

2.解决方案将对应依赖包作用域调整为compile报错内容中找不到的类所在的依赖即为需调整内容。修改完依赖配置，记得更新依赖。

2022-06-22 18:28:07 1300 1

原创 flink报错：No ExecutorFactory found to execute the application

1.问题描述报错内容2.解决方案增加依赖项3.注意事项依赖版本，要和你使用的flink版本对应。

2022-06-21 14:43:48 1167

原创 Kafka设置消息过期时间

2.设置方法2.1 进入配置文件目录将所有节点的配置文件均改为你需要的数值，注意不要直接同步，同步的话，节点配置会覆盖，大致集群故障。清除策略还可以按文件大小、偏移量等方式设置，但最常用的是按过期时间设置，有兴趣的可以研究一下其他策略，由于不常用，这里不做介绍。...

2022-06-21 14:30:16 1609

原创 Flink1.11.0-standalone session-本地集群模式-快速部署（适用＞=1.11版本，低版本未测试）

flink1.11.0centos7.5集群（3节点）https://archive.apache.org/dist/flink/flink-1.11.0/、修改完后，同步至三个节点。修改完后，同步至三个节点。修改完后，同步至三个节点。6.打开flink-webUI测试地址：http://linux1:8081......

2022-06-17 11:40:10 470

原创 html5常用语法-1:标题段落无序列表超链接图片块表格

1.idea新建web项目新建项目选web,next随便命个名字2.html代码<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>这是Title</title></head><body><h1>这是标题一</h1><h

2022-04-28 23:56:48 1394

原创 docker查看当前正在运行的容器

1.docker指令docker ps该指令用来显示当前运行的所有容器，包含容器ID 状态端口等信息。2.实操演示

2022-04-14 00:59:54 7656

原创 doris报错：Label Already Exists

1.报错场景加载数据[starcross@app1 FLink-test-LT]$ curl --location-trusted -u root:aba -T 'data_2022-04-11.csv' -H "label:testdoris201" -H "column_separator:," -XPUT http://10.22.33.69:8030/api/os/ws/_stream_load2.报错内容{ "TxnId": -1, "Label": "testdoris

2022-04-12 14:15:06 3475

原创 doris报错：too many filtered rows

1.报错场景加载数据[starcross@app1 FLink-test-LT]$ curl --location-trusted -u root:aba -T 'data_2022-04-11.csv' -H "label:testdoris201" -H "column_separator:," -XPUT http://10.22.33.69:8030/api/os/ws/_stream_load2.报错内容{ "TxnId": 831311, "Label": "testd

2022-04-12 13:42:29 18767

原创 docker查看已获取镜像

1.命令行docker images2.实操演示

2022-04-10 18:44:00 1287

原创任务调度框架-Airflow单机部署之docker方式

前言airflow支持集群部署，本文介绍单机部署方式，下图为airflow架构。1.服务器环境linux版本：centos7java版本：java8容器框架：docker2.拉取docker镜像文件docker pull puckel/docker-airflow3.启动airflow镜像docker run -d -p 8080:8080 puckel/docker-airflow webserver4.登录web-ui体验一下airflowhttp://lin..

2022-04-10 17:40:09 2229

原创 StarRocks2部署

1.下载安装包https://www.starrocks.com/zh-CN/download体验学习，选择社区版即可。2.解压并分发安装包至指定目录–StarRocks安装包目录结构–├── be # BE目录│ ├── bin│ │ ├── start_be.sh # BE启动脚本│ │ └── stop_be.sh # BE关闭脚本│ ├── conf│ │ └── be.conf # BE配置文件│ .

2022-04-05 19:18:31 1260

原创 Kakfa监控工具EFAK( Kafka eagle )2.1.0详细安装步骤

3.12.1 efak下载https://www.kafka-eagle.org/3.12.2 上传解压tar包tar -zxvf kafka-eagle-bin-2.1.0.tar.gzmv efak-web-2.1.0 /opt/module/efak-web-2.1.03.12.3 配置efak3.12.4 配置efak环境变量Vim /etc/profile.d/myenv.shSource /etc/profile3.12.5 配置kafka jmx3.12.6

2022-03-18 01:15:50 3664

jdk11安装包下载资源

PanoplyWin-5.5.0.zip

spring aop编程示例

rust读取csvc文件，并实现正则匹配检索特定字符串

欧氏距离计算方法，VS源码工程

python310 安装geopandans所需依赖库：GDAL、Shapely、Fiona

RedisInsight软件包

python3.10.1安装包含win64位及win32位.7z

空空如也