自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(604)
  • 资源 (66)
  • 收藏
  • 关注

原创 Doris RAG 代码速读与实现要点

本文基于Apache Doris实现RAG流程,涵盖向量入库、检索生成、服务部署等核心模块。项目通过配置Doris连接、Embedding/LLM模型等参数,支持Markdown文档的离线索引构建(包括文本清洗、分块、向量化及HNSW索引创建)。服务层提供FastAPI接口和CLI两种交互方式,实现查询增强、向量检索和LLM生成完整链路。特别设计了知识图谱实验模块,采用向量+SQL混合方式管理图数据。项目提供中英双语支持,可快速部署体验,并给出性能优化建议,为基于Doris的RAG应用开发提供参考实现。

2026-02-06 15:06:30 812

原创 Doris 与 OceanBase 物化视图对比分析

摘要: Doris与OceanBase在物化视图架构、刷新机制、查询优化等方面存在显著差异。Doris采用双轨制(同步/异步物化视图),支持实时同步和分布式存储;OceanBase仅支持异步视图,通过全量/增量刷新实现。Doris在实时分析、资源管控方面占优,而OceanBase更适合HTAP混合负载场景。选型需考虑实时性、HTAP需求及资源管理等因素,Doris适合纯分析场景,OceanBase更适合一体化HTAP系统。两者各有优势,需根据具体业务需求选择。

2026-01-30 16:50:23 317

原创 Python 完整学习计划

本文为Java开发者设计的Python系统学习计划,分为6个阶段,总周期12-18周。计划从基础语法与核心概念(1-2周)开始,重点对比Python与Java在动态类型、缩进语法、字符串操作等差异。随后涵盖面向对象、标准库、Web开发、数据处理等进阶内容。基础阶段详细讲解Python特有的列表推导式、字典操作、元组解包等特性,以及控制流程和函数定义方式。该计划特别适合有Java基础但希望系统掌握Python的开发者,通过对比两种语言差异帮助快速理解Python特性,最终达到全面掌握Python开发能力的目标

2026-01-20 16:53:48 673

原创 OceanBase SeekDB 详解:三行代码构建 AI 原生应用的“全能”数据库

摘要:OceanBase推出的开源AI原生数据库SeekDB,创新性地将向量检索、全文检索和结构化查询整合到单一引擎中,解决了多数据库管理难题。其轻量化设计(1C2G即可运行)、MySQL兼容性和内置AI功能(如embedding/rerank),显著简化了AI应用开发流程。支持Docker、RPM和嵌入式Python三种部署方式,通过混合搜索能力提升RAG准确率,是AI 2.0时代的高效数据解决方案。

2026-01-19 14:38:16 716

原创 Swift SFT Qwen-VL LoRA 微调指令详解

本文详细介绍了使用ModelScope Swift框架对Qwen-VL视觉语言大模型进行LoRA微调的完整脚本配置。该配置通过环境变量优化显存管理,设置多模态数据处理上限,并采用极节省显存的训练策略:单卡单条数据、梯度累积、冻结视觉模块、LoRA微调仅线性层等。参数解析涵盖模型路径、数据加载、训练核心设置、显存优化、LoRA配置、数据处理、优化器调整等全流程,提供了一套高效稳定的视觉语言模型微调方案,特别适合资源受限场景下的多模态模型适配。

2026-01-16 11:06:04 784

原创 使用 `ms-swift` 微调 Qwen3-VL-2B 详细指南

本文介绍了在AutoDL服务器上微调Qwen3-VL-2B-Instruct模型用于图片OCR识别的完整流程。首先说明了服务器配置选择建议,然后详细阐述了环境搭建、数据准备、微调命令执行等步骤。通过LoRA方法进行轻量级微调,生成适配车牌识别的模型,并展示了推理测试过程。文中强调实际应用需要更多训练数据,并提供了相关资源链接。整个过程展示了如何利用现有大模型快速实现特定OCR任务的定制化解决方案。

2026-01-15 17:19:58 540

原创 【深度硬核】大模型白盒蒸馏:原理、架构与实战详解

摘要:白盒蒸馏(White-box KD)通过利用大模型的内部状态(Logits、Hidden States)实现高效知识迁移,相比黑盒蒸馏能获得更好的性能和泛化能力。其核心是通过KL散度和MSE损失函数,将学生模型的输出层和中间层与教师模型对齐。实战中需处理维度不匹配问题并设计合理的损失权重,但面临显存消耗、教师模型适配等挑战,需采用梯度累积、混合精度训练等技术优化。白盒蒸馏为小模型赋予大模型能力提供了有效路径。

2026-01-14 16:58:25 458

原创 从巨人的肩膀起飞:大模型蒸馏(LLM Distillation)完全指南

大模型蒸馏技术:轻量化部署的关键方法 摘要:大模型蒸馏(Knowledge Distillation)通过将庞大"教师模型"的知识迁移到小型"学生模型",实现高性能轻量化部署。技术分为白盒蒸馏(利用Logits和隐层状态)和黑盒蒸馏(基于API生成文本),前者精度更高,后者适用性更广。核心方法包括:1)Logits蒸馏(通过KL散度匹配概率分布);2)指令蒸馏(合成<SFT数据训练);3)思维链蒸馏(CoT)传授推理过程。PyTorch代码示例展示了基于Hugg

2026-01-14 16:05:12 1184

原创 SVD 算法详解:给数据做个“CT扫描”

SVD(奇异值分解)是矩阵分解的数学基石,能将复杂数据拆解为三个核心矩阵:用户特征(U)、特征强度(Σ)和物品特征(V)。其本质是通过低秩近似实现有损压缩,保留主要特征而舍弃噪声。虽然标准SVD要求稠密矩阵,但推荐系统中常用其变种FunkSVD来处理稀疏数据。SVD不仅用于推荐系统,还广泛应用于图像压缩、降噪和PCA降维等领域,体现了对数据本质特征的精准提取与高效表达。

2026-01-14 14:38:29 454

原创 SGD 算法详解:蒙眼下山的寻宝者

本文对比了ALS(交替最小二乘法)和SGD(随机梯度下降)两种矩阵分解方法。SGD通过随机采样数据点,沿着误差梯度方向逐步调整参数,虽路径曲折但收敛速度快,适合增量更新和流式计算;而ALS则通过精确解析解实现并行计算,适合海量数据分布式处理。文章用“蒙眼下山”比喻SGD的工作原理,并给出参数更新公式,指出SGD以频繁更新换取效率,是推荐系统中快速优化的实用方法。最后通过对比表总结了两者的适用场景和优缺点。

2026-01-14 13:55:27 689

原创 ALS 算法详解:怎么解开“推荐系统”的死结?

本文用通俗易懂的方式介绍了推荐系统中常用的ALS(交替最小二乘法)算法。文章首先通过淘宝推荐、Netflix推荐等生活场景引出矩阵分解的任务:预测用户对未评分物品的偏好。核心思路是将用户-物品评分矩阵分解为用户特征矩阵和物品特征矩阵的乘积。为了优化预测效果,算法设置了包含误差平方和与正则化项的目标函数。ALS通过交替固定一个矩阵优化另一个矩阵的方式,将复杂的非凸优化问题转化为可求解的最小二乘问题,并支持并行计算。这种"冻结-优化"的交替过程不断迭代,直至模型收敛,最终实现准确推荐。

2026-01-14 13:47:40 601

原创 LoRA 训练过程详解:从 0 到“懂你”的进化之路

本文通过教AI写"李白风"古诗的案例,生动阐释了LoRA微调技术的运作机制。初始状态下,随机矩阵A和全零矩阵B无法有效工作,AI仅能输出平淡语句。通过反向传播和梯度下降,矩阵A逐渐学会提取"豪放派"特征(如月亮对应豪放因子),矩阵B则学会将特征转化为风格化输出。经过迭代训练后,系统能够将"大河"等输入精准转化为"君不见黄河之水天上来"等具有李白风格的输出。整个过程展示了LoRA如何通过损失函数指引、梯度雕刻和迭代积累,最终形成有

2026-01-14 11:37:51 556

原创 LoRA 矩阵分解:Rank(秩)与数值的确定机制

本文通过电影推荐系统类比,解释了LoRA(低秩适应)中的秩(Rank)设定和数值初始化机制。秩(r)是人工设定的超参数,控制模型的拟合能力和计算量(常用值为8-64)。矩阵A采用高斯随机初始化,矩阵B初始化为全零,确保训练开始时不影响原始模型性能。LoRA矩阵相乘产生的是权重增量(ΔW),而非直接评分,通过修正原始模型输出来实现特定任务适配。整个过程保持了模型原有功能的同时,通过低秩分解高效学习任务相关特征。

2026-01-14 11:14:57 856

原创 全网最全!Python、PyTorch、CUDA 与显卡版本对应关系速查表

全网最全!Python、PyTorch、CUDA 与显卡版本对应关系速查表

2026-01-09 09:58:17 5162

原创 揭秘:不用 Conda,Python “光杆司令“ 是如何指挥 GPU 跑大模型的?

揭秘:不用 Conda,Python "光杆司令" 是如何指挥 GPU 跑大模型的?

2026-01-08 16:58:29 860

原创 ADF检测实战:应用场景与“驯服”数据的步骤

ADF检测实战:应用场景与“驯服”数据的步骤

2026-01-04 15:51:40 672

原创 ADF检测:给时间序列做个“体检”

ADF检测:给时间序列做个“体检”

2026-01-04 15:41:50 645

原创 特征工程:数据科学的“烹饪艺术”

特征工程:数据科学的“烹饪艺术”

2026-01-04 14:55:22 845

原创 SARIMA模型:给 ARIMA 加上“日历”

SARIMA模型:给 ARIMA 加上“日历”

2026-01-04 14:25:26 1090

原创 ARIMA模型:时间序列预测的“瑞士军刀”

ARIMA模型:时间序列预测的“瑞士军刀”

2026-01-04 14:19:44 751

原创 XGBoost 公式推导:其实没那么可怕!

XGBoost 公式推导

2025-12-30 16:08:56 923

原创 Bagging vs Boosting:谁才是最强“抱团”算法?

Bagging vs Boosting:谁才是最强“抱团”算法?

2025-12-30 14:42:02 465

原创 AI 任务分类:人工智能到底能干啥?

AI任务分类

2025-12-30 09:57:28 1256

原创 GeoHash 编码:给地球上的每一寸土地编个“身份证号”

GeoHash 编码:给地球上的每一寸土地编个“身份证号”

2025-12-29 11:20:00 667

原创 信用评分卡模型 (Credit Scorecard):给你的信用“打个分”

信用评分卡模型 (Credit Scorecard):给你的信用“打个分”

2025-12-29 10:23:30 845

原创 传统行业数字化突围:银行/保险/制造如何制定精准的Push用户分层策略?

传统行业数字化突围:银行/保险/制造如何制定精准的Push用户分层策略?

2025-12-29 10:03:35 764

原创 告别“盲目群发”:Push推送策略前的用户分层全指南

告别“盲目群发”:Push推送策略前的用户分层全指南

2025-12-29 09:39:24 1649

原创 2025技术实战总结:大模型如何重塑软件开发与硬件设计—从百页文档秒变代码到芯片抗干扰设计

大模型如何重塑软件开发与硬件设计—从百页文档秒变代码到芯片抗干扰设计

2025-12-27 15:53:16 1044

原创 K折交叉验证 (K-Fold Cross-Validation):给 AI 来一场“轮岗实习”

K折交叉验证 (K-Fold Cross-Validation):给 AI 来一场“轮岗实习”

2025-12-26 15:18:20 619

原创 ResNet 残差连接:通往深层网络的“高速公路”

ResNet 残差连接:通往深层网络的“高速公路”

2025-12-26 11:06:42 542

原创 ReLU 激活函数:神经网络的“开关”

ReLU 激活函数:神经网络的“开关”

2025-12-26 10:43:34 801

原创 深度神经网络 (DNN):当机器学会“深思熟虑”

深度神经网络 (DNN):当机器学会“深思熟虑”

2025-12-26 10:35:27 555

原创 神经网络 (Neural Networks):模仿大脑的超级机器

神经网络 (Neural Networks):模仿大脑的超级机器

2025-12-26 10:29:13 803

原创 CatBoost:自带“翻译官”的算法专家

CatBoost:自带“翻译官”的算法专家

2025-12-26 10:12:04 509

原创 LightGBM:机器学习界的“轻功高手”

LightGBM:机器学习界的“轻功高手”

2025-12-26 10:01:18 842

原创 XGBoost:机器学习界的“速度与激情”

XGBoost:机器学习界的“速度与激情”

2025-12-26 09:51:31 865

原创 线性回归 (Linear Regression):预测未来的“水晶球”

线性回归 (Linear Regression):预测未来的“水晶球”

2025-12-26 09:38:31 740

原创 PageRank 算法:互联网的“人气投票”

PageRank 算法:互联网的“人气投票”

2025-12-26 09:17:23 1103

原创 Apriori 算法:超市购物篮里的秘密

apriori算法

2025-12-25 17:34:02 910

原创 EM 算法 (期望最大化):在迷雾中寻找真相

EM 算法 (期望最大化):在迷雾中寻找真相

2025-12-25 17:25:27 888

rtsp-server实现摄像头实时播放(兼容各厂家摄像头&amp;主流浏览器)

详细说明见->https://blog.csdn.net/taotao_guiwang/article/details/127246911

2022-10-10

TrueLicense实现系统证书授权

TrueLicense实现系统证书授权,详细描述见->https://blog.csdn.net/taotao_guiwang/article/details/127250547

2022-10-11

rtsp-server-vue引用示例

使用说明见->https://blog.csdn.net/taotao_guiwang/article/details/127246911

2022-10-10

从0到1使用ES实现昼伏夜出算法完整项目

详细说明见->https://blog.csdn.net/taotao_guiwang/article/details/127211645?spm=1001.2014.3001.5501

2022-10-10

logstash-conf

logstash-conf

2022-10-10

hyperic-sigar-1.6.4-1

hyperic-sigar实现操作系统CPU、内存等系统资源监控

2022-07-30

policycoreutils-python-2.5-29.el17.x86 audit-libs-2.8.4-4.el7.x8

docker 安装 Error: Package: policycoreutils-python-2.5-29.el17.x86_64 所需rpm。详细解决方案见:https://blog.csdn.net/taotao_guiwang/article/details/125405383?spm=1001.2014.3001.5501

2022-06-22

ingress‐controller.yaml

通过K8S的Ingress资源可以实现类似Nginx的基于域名访问,从而实现Pod的负载均衡访 问。

2021-11-08

com-sun-tools-visualvm-modules-visualgc.rar

VisualGC插件,用于监控JVM内存情况

2021-08-30

zookeeper-3.5.8-kafka_2.11-2.4.1.rar

zookeeper3.5.8及kafka2.11-2.4.1

2021-10-09

Redis哨兵集群配置示例.rar

Redis哨兵集群配置示例

2021-11-29

Tess4J-master.rar

使用Tess4J绕过网站验证码,以cqccms获取电动自行车信息为例,实现获取数据的完整流程。代码可直接运行,注释详细。

2021-12-08

demokafka.rar

Java客户端访问Kafka,完整实现。

2021-10-10

demokafkaboot.rar

Spring Boot整合Kafka,完整实现。

2021-10-10

arthas-packaging-3.5.4-bin.zip

Arthas 是 Alibaba 在 2018 年 9 月开源的 Java 诊断工具。支持 JDK6+, 采用命令行交互模式,可以方便的定位和诊断 线上程序运行问题。Arthas 官方文档十分详细,详见:https://alibaba.github.io/arthas

2021-09-14

基于局域网的安全审计组件的设计与实现.caj

基于局域网的安全审计组件的设计与实现

2021-09-14

dbeaver-ce-21.2.0-x86_64-setup.exe

类似navicat的数据库可视化工具,可避免navicat版权问题

2021-09-09

远程连接jvisualvm,测试用jar

远程连接jvisualvm,测试用jar

2021-09-07

OBS.rar开源录屏软件

1.高性能实时视频/音频捕获和混合。创建由多个来源组成的场景,包括窗口捕获、图像、文本、浏览器窗口、网络摄像头、捕获卡等。 2.设置无限数量的场景,您可以通过自定义过渡在它们之间无缝切换。 3.直观的混音器,带有每个源过滤器,例如噪声门、噪声抑制和增益。使用 VST 插件支持完全控制。 4.强大且易于使用的配置选项。添加新源、复制现有源并轻松调整其属性。 5.简化的设置面板让您可以访问各种配置选项,以调整广播或录制的各个方面。 6.模块化“Dock”用户界面允许您完全按照自己的喜好重新排列布局。您甚至可以将每个单独的 Dock 弹出到其自己的窗口中。

2021-08-23

settings.rar

Maven使用私服资源配置

2021-08-16

Flink SQL Cookbook on Zeppelin搭建相关依赖

Flink SQL Cookbook on Zeppelin搭建相关依赖,包括:flink-1.12.1(已包含 flink-faker-0.2.0.jar)、flink-sql-cookbook-on-zeppelin-main。

2024-12-24

使用脚本实现hadoop-yarn-flink自动化部署

使用脚本实现hadoop-yarn-flink自动化部署,详见博客:https://core815.blog.csdn.net/article/details/144022938

2024-12-07

mysql5.7、redis7.0.5 docker环境一键部署脚本

mysql5.7、redis7.0.5 docker环境一键部署脚本

2024-12-04

flink-faker0.2.0-0.4.0

flink-faker0.2.0-0.4.0 Flink-Faker 是一个专为 Apache Flink 设计的数据生成源连接器。它利用 Data Faker 库的功能,允许用户通过简单的配置,基于Java Faker表达式为Flink SQL中的每个列生成虚拟数据。这对于开发和测试阶段特别有用,当你需要快速搭建环境并填充测试数据以验证逻辑时。项目灵感来源于voluble,且完全兼容Java Faker的表达式。

2024-10-29

shibing624-text2vec-base-chinese模型文件

shibing624_text2vec-base-chinese模型文件

2024-08-28

phpadmin docker镜像

1.加载镜像 docker load -i myphpadmin.tar 2.查看镜像是否加载成功 docker images 3.创建实例 docker run --name myphpadmin -d -e PMA_ARBITRARY=1 -p 21010:80 phpmyadmin 4.访问 http://IP:21010

2024-07-29

HomeAssistant windows Hyper-V 虚拟机镜像

HomeAssistant windows Hyper-V 虚拟机镜像 官网下载较慢,特提供本下载地址。

2024-07-15

Ollama 是一个开源框架,专为在本地机器上便捷部署和运行大型语言模型(LLM)而设计 官网下载比较慢,特提供本下载地址

Ollama 是一个开源框架,专为在本地机器上便捷部署和运行大型语言模型(LLM)而设计。 官网下载比较慢,特提供本下载地址。

2024-07-05

CentOS7 X86-64 mysql客户端安装包,附安装说明

CentOS7 X86_64 mysql客户端安装包,附安装说明。 rpm -ivh mysql-community-client-plugins-8.4.0-1.el7.x86_64.rpm rpm -ivh mysql-community-common-8.4.0-1.el7.x86_64.rpm rpm -e mariadb-libs --nodeps rpm -ivh mysql-community-libs-8.4.0-1.el7.x86_64.rpm rpm -ivh mysql-community-client-8.4.0-1.el7.x86_64.rpm

2024-06-13

apache-dolphinscheduler-3.2.1-src.tar.gz、bin.tar.gz

apache-dolphinscheduler-3.2.1-src.tar.gz、apache-dolphinscheduler-3.2.1-bin.tar.gz

2024-05-15

flink-1.19.0-bin-scala-2.12.tgz flink-1.16.3-bin-scala-2.12.tgz

flink-1.19.0-bin-scala_2.12.tgz flink-1.16.3-bin-scala_2.12.tgz

2024-05-21

一键安装docker环境:docker、docker-compose

docker版本26.1.2,docker-compose版本v2.11.0。 1.把docker_compose_install-new文件夹放在任意路径; 2.chmod -R 777 install.sh 3.执行./install.sh 兼容:CentOS7.6、麒麟V10服务器版。

2024-05-15

NPS内网穿透工具,服务器端(CentOS)+客户端(CentOS、Windows)

NPS内网穿透工具,服务器端(CentOS)+客户端(CentOS、Windows)。GitHub下载慢,特提供本下载地址。

2024-04-30

apache-dolphinscheduler-3.1.4-bin

apache-dolphinscheduler-3.1.4-bin安装包及安装说明

2024-02-20

Java实现对系统CPU、内存占用率的控制

背景:由于使用的业主的云资源,由于使用率低,会不持续的缩减服务器配置。为了避免后续由于新业务上线,需要更多资源的时候,无法再次获得资源(回收容易,申请难)。 问题:怎样通过Java程序实现CPU、内存占用超过50%? 方案:详见我的博客:https://blog.csdn.net/taotao_guiwang?spm=1010.2135.3001.5343

2024-01-25

docker、docker-compose一键安装,适配CentOS、银河麒麟、统信UOS等

docker、docker_compose一键安装,适配CentOS、银河麒麟、统信UOS等。

2024-01-10

sigar-amd64-winnt.dllt实现windows操作系统CPU、内存等系统资源监控

sigar-amd64-winnt.dllt实现windows操作系统CPU、内存等系统资源监控

2023-11-10

fastDFS实现文件上传完整代码

fastDFS实现文件上传完整代码,包括源代码及maven依赖。

2023-07-25

Redis离线安装资源汇总,autoconf、gcc、jemalloc、m4、redis

Redis离线安装资源汇总 安装教程见:https://blog.csdn.net/taotao_guiwang/article/details/127501155

2022-10-24

TrueLicense证书生成工具

详见->https://blog.csdn.net/taotao_guiwang/article/details/127250547

2022-10-11

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除