A尘埃-CSDN博客

原创深度学习之神经网络简介（FNN+CNN+RNN+LSTM+GRU+GAN+GNN+Transformer）

设计模式相同点统一的基类：网络模型都继承自torch.nn.Module结构化的代码组织：每个模型都遵循__init__定义层，forward定义前向传播的范式标准化的训练流程：训练循环都遵循zero_grad -> forward -> loss -> backward -> step 的标准五步模块化的网络层：所有模型的构建方式一致，都通过组合torch.nn中的基础层完成可微分的损失函数：不同任务只是选择不同的Torch损失函数。

2026-04-30 17:24:34 792

原创深度学习之卷积神经网络CNN（卷积+池化）

使用VGG16的结构提取图像特征，再根据特征建立mlp模型，实现猫狗图像识别，训练、测试数据dataset\data_vgg。根据提供的数据结构，建立CNN模型，识别图片中的猫/狗，计算预测准确率。从网站下载猫/狗图片，进行预测。

2026-04-07 10:08:19 47

原创神经网络的激活函数+损失函数+优化器

激活函数

2026-03-28 07:57:16 114

原创深度学习框架：Keras

Keras 是一个模型级（model-level）的库，为开发深度学习模型提供了高层次的构建模块它不处理张量操作、求微分等低层次的运算。它依赖于一个专门的、高度优化的张量库来完成这些运算，这个张量库就是 Keras 的后端引擎（backend engine）Keras 没有选择单个张量库并将 Keras 实现与这个库绑定，而是以模块化的方式处理这个问题。

2026-02-14 14:35:06 710

原创数学：神经网络的数学基础

NumPy 和 Pandas 中常用的数组/张量操作方法仅包含一个数字的张量叫作标量（scalar，也叫标量张量、零维张量、0D 张量）。在 Numpy中，一个 float32 或 float64 的数字就是一个标量张量（或标量数组）。用 ndim 属性来查看一个 Numpy 张量的轴的个数，标量张量有 0 个轴（ndim == 0），张量轴的个数也叫作阶（rank）数字组成的数组叫作向量（vector）或一维张量（1D 张量），一维张量只有一个轴。

2026-02-11 22:08:59 706

原创心脏病预测+地学玄武岩分类预测（KNN算法应用）

②、探索数据间的相关性，绘制相关性热力图（选择斯皮尔曼系数，相对皮尔逊相关系数更为稳健），对于高相关性数据，进行手动剔除，实现数据的降维，消除冗余特征信息。通过数据探索（相关性探索），可以选择性手动删除高相关性特征（高相关性特征的信息蕴含基本一致，这会导致信息冗余），降低数据维度，让模型更好地学习“真本事”数据集来自收集的数据，其特征数据为玄武岩主、微量元素数据，标签为玄武岩类别，任务类型：二分类任务。特征数据存在多种类型的数据，其包括类别型数据、数值型数据和二元特征数据。按照7：3的比例划分数据集。

2026-02-10 16:04:10 512

原创机器学习：模型评价指标

两种任务下的模型评价指标。

2026-02-10 09:00:01 651

原创正则化、交叉验证、关注梯度下降法、学习率衰减

上述正则化技术方法中，关于超参数（本文中是惩罚系数λ）的理解：在机器学习中，超参数是模型训练前预设的、不能从数据中直接学习的配置参数（如学习率、网络层数、正则化强度），它们控制着模型的结构、训练过程与复杂度优化，其选择直接影响模型的性能与泛化能力，通常需要通过经验、网格搜索或贝叶斯优化等方法进行调优，是连接算法设计与实际应用效果的关键环节。正则化（Regularization）是一种在训练机器学习模型过程中，在损失函数中添加额外项，来惩罚过大的参数，进而限制模型复杂度、避免过拟合，提高模型泛化能力的技术。

2026-02-10 08:17:18 716

原创机器学习：拟合、欠拟合与过拟合的关系

是指模型在训练集上表现得很好，但在测试数据或新数据上表现较差的情况。过拟合的模型对训练数据中的噪声或细节过度敏感，过度学习训练集的性质，从而失去了泛化能力。在机器学习模型的学习过程中，若模型能够准确地捕捉训练数据的模式，并且在未见过的新数据（测试数据）上也有良好的表现，那么模型就具有良好的泛化能力（拟合）: 是指模型在训练数据上表现不佳，无法很好地捕捉数据中的规律。这样的模型不仅在训练集上表现不好，在测试集上也同样表现差。案例：使用常见多项式拟合在[-5,5]区间上拟合函数cos(x)

2026-02-09 20:43:33 430 1

原创电网公司区域电力负荷预测（LSTM算法）

时序数据清洗（Spark）、特征工程（滑动窗口/多源特征融合）、LSTM模型构建（PyTorch）、模型训练与评估（MAE/RMSE/MAPE）、模型存储（MinIO）：API网关、负荷预测服务（Python/FastAPI）、调度系统集成（Java/Spring Boot）、监控告警；业务价值：备用容量优化年降本2000万元，限电损失减少年1500万元，新能源消纳率提升10%：通过调度终端查看预测曲线，应急指挥系统基于预测结果制定切负荷策略。

2026-02-08 22:26:53 795

原创电子厂PCB板焊点缺陷检测（卷积神经网络CNN）

图像预处理（去噪/裁剪）、数据增强（旋转/翻转）、CNN模型构建（ResNet迁移学习）、模型训练与评估、模型存储（MinIO）：API网关、缺陷检测服务（调用CNN模型）、质检系统集成（缺陷标注/统计分析）、分拣控制系统（PLC联动）、监控告警CNN（卷积神经网络）是专为图像设计的深度学习模型，通过局部感知（卷积核提取局部特征）、权值共享（减少参数）、层次化特征提取（浅层边缘→中层纹理→深层语义），实现高效图像理解算法团队业务团队。

2026-02-08 22:26:12 972 1

原创物流公司配送路径动态优化（Q-Learning算法）

算法团队：数据清洗（Spark）、特征工程（状态/动作/奖励特征）、Q-Learning模型训练（Ray分布式）、模拟环境构建（Gym）、策略存储（Feast）业务团队：API网关、路径优化服务（调用Q-Learning策略）、配送调度系统集成（司机APP/控制台）、监控告警物流运营团队：通过司机APP接收实时路径，调度员终端干预异常订单。

2026-02-07 20:38:45 627

原创超市购物篮关联分析与货架优化（Apriori算法）

针对超市货架布局粗放（商品摆放凭经验）、交叉销售效率低（连带购买率<8%）、库存周转慢（滞销品占比12%）的痛点，采用Apriori算法挖掘购物篮商品关联规则，实现“商品共现模式→货架优化策略”的精准映射，支撑“关联商品就近陈列、促销组合推荐、库存联动管理”。Apriori原理与货架场景深度结合（支持度/置信度/提升度量化关联强度）、分布式事务数据处理（Spark）、动态规则更新机制（周级迭代）、业务团队货架优化系统集成。

2026-02-07 20:38:02 702

原创电信运营商用户分群与精准运营（K-Means聚类）

算法团队：数据清洗、特征工程（衍生/标准化）、K-Means模型训练（K-Means++）、特征存储（Feast）、模型注册（MLflow）；业务团队：API网关、用户分群服务（调用模型+特征服务）、运营平台集成、分群效果监控；基础设施团队：K8s集群、MinIO存储、CI/CD工具链。

2026-02-07 15:07:52 828

原创电商客服工单自动分类（SVM支持向量机）

监控系统（Grafana）实时展示分类准确率、PSI（特征分布漂移）、API错误率，若PSI>0.25（数据分布变化），自动触发模型重训（Airflow调度算法团队重训流程）feature_store/feature_repo/features.py（定义实体、特征视图、在线/离线特征，业务团队通过此调用）（2）算法团队：SVM-RBF核模型训练（model_training/svm/train_svm.py）（1）算法团队：特征存储（Feast，明确内容）步骤3：特征变化对比表（原数据→处理后特征）

2026-02-06 17:50:26 1178

原创保险公司车险理赔欺诈检测（随机森林）

业务痛点：某财险公司年车险理赔额超80亿元，欺诈案件占比约8%（行业平均5-10%），年损失超6.4亿元。

2026-02-06 04:48:16 808

原创银行个人贷款违约风险预测（逻辑回归）

③ 历史贷款数据库（historical_loans.csv，含标签）④ 第三方数据（社保/公积金，social_security.csv）① 信贷申请表（loan_applications.csv）还款能力：业务意义，衡量借款人的还款压力，比率越高风险越大。② 央行征信数据（credit_records.csv）Nginx配置（负载均衡）（1）原数据结构（示例）（2）数据清洗与特征工程。处理后的数据（特征矩阵）

2026-02-05 11:16:50 1006

原创零售连锁店生鲜品类销量预测——线性回归（Linear Regression）

某全国性连锁超市（如永辉）面临生鲜品类（蔬菜、水果）库存积压与缺货并存的问题，需精准预测各门店每日销量以优化采购业务痛点：某连锁超市生鲜品类（蔬菜、水果）因销量预测不准，导致库存周转率仅6次/年（行业标杆8次/年），损耗率8%（行业标杆≤5%），年损失超200万元项目目标：构建线性回归销量预测模型，实现“门店-品类-日期”维度的日销量预测（MAPE≤10%），支撑采购决策，目标库存周转率提升至7.5次/年，损耗率降至5.5%① POS系统销量数据（pos_sales.csv）

2026-02-04 15:45:26 798

原创电商推荐系统（模型训练和服务化部署）

部署配置文件模型训练支持多种算法（LightGBM、XGBoost、CatBoost）修正补充：上述中的类别拟合代码：机器学习中，拟合指的是使用数据来训练模型或预处理器，从而学习到数据的的某些特性。对于标签编码器（LabelEncoder），拟合就是学习数据集中所有唯一类别，并为每个类别分配一个唯一的整数拟合阶段（Fit）：转换阶段（Transform）：原始数据——>拟合阶段（训练编码器）——应用编码（转换阶段）标签变化编码案例标准化数据特征数值特征标准化Stand

2026-01-30 21:53:44 714

原创数值特征标准化StandardScaler和类别不平衡SMOTE

标准差是衡量数据集中数值分散程度或变异程度的一个重要指标，标准差越大，表示数据点越分散；标准差越小，表示数据点越集中（方差是标准差的平方）标准化值 = (原始值 - 均值) / 标准差。③、结合过采样和欠采样。

2026-01-28 15:27:23 466

原创标签编码变化案例

改进方案：处理未知类别。

2026-01-28 08:18:32 187

原创机器学习：数据变化（原始数据—数据清洗—特征工程）

【代码】数据变化（原始数据—数据清洗—特征工程）

2026-01-25 17:58:33 336

原创电商推荐系统（数据清洗和特征工程）

项目结构production.yaml生产环境配置和deploy_service.sh部署文件原始数据输出结果数据清洗模块特征工程基础特征提取高级特征工程

2026-01-24 13:48:49 792

原创电商推荐系统生产配置+自动化部署脚本

Bash脚本，用于部署推荐系统服务到Kubernetes集群。它包含了构建Docker镜像、推送镜像、部署到Kubernetes、健康检查、集成测试、金丝雀发布（仅生产环境）和清理旧版本等步骤。{DB_PASSWORD}，在部署前需要设置这些环境变量。②、使用PyYAML解析库进行配置加载。③、初始化数据源连接。

2026-01-19 21:20:16 312

原创新闻推荐系统实现方案

【代码】新闻推荐系统实现方案。

2026-01-18 21:49:13 328

原创 OpenCV常用方法介绍

图像显示图像处理颜色空间转换图像变换滤波与平滑图像阈值与二值化边缘检测形态学操作轮廓检测绘图功能特征检测与匹配视频处理图像金字塔模板匹配Hough变换图像分割与前景提取总结：实用工具函数场景一：工业视觉检测 - 产品缺陷检测（智能制造 - 工业零件缺陷检测系统）算法融合检测流程检测算法融合策略①、边缘检测（Canny）：适用于检测裂纹、边缘破损②、阈值分割：适用于表面污点、凹坑③、模板匹配：适用于尺寸和形状验证场景二：安防监控

2026-01-11 14:27:28 876

原创 Numpy常用方法介绍

【代码】Numpy常用方法介绍。

2026-01-08 15:58:05 183

原创算法设计思想以及分类大纲+算法类竞赛简单介绍

为了有效地选择下一扩展结点，以加速搜索的进程，在每一活结点处，计算一个函数值（限界），并根据这些已计算出的函数值，从当前活结点表中选择一个最有利的结点作为扩展结点，使搜索朝着解空间树上有最优解的分支推进，以便尽快地找出一个最优解。类似于回溯法，也是一种在问题的解空间树T上搜索问题解的算法。对于一个规模为n的问题，若该问题可以容易地解决（比如说规模n较小）则直接解决，否则将其分解为k个规模较小的子问题，这些子问题互相独立且与原问题形式相同，递归地解这些子问题，然后将各子问题的解合并得到原问题的解。

2025-12-31 21:49:22 759

原创企业级大模型创建与部署全流程（数据集—＞创建模型—＞训练模型—＞评估模型—＞部署模型）

前向传播是数据流动的过程，全连接层和激活函数是构建模型的基础，输出层和任务头决定任务类型，学习率和损失函数驱动训练，反向传播和优化器调整权重，而过拟合是需要避免的陷阱。②、模型架构（任务头+反向传播+）：在预训练模型的基础上，添加任务特定的输出层。①、使用测试集评估模型性能。大模型预训练后，针对不同的下游任务添加的“专用输出层”（后面接不同的任务头来做具体任务，预训练模型通常不包括任务特定的输出层）在NLP任务中，通常在预训练模型的输出之上添加一个或多个全连接层，将模型输出的高维向量映射到任务所需的维度。

2025-12-31 21:17:16 991

原创大模型部署方式(本地化部署+云端部署+混合部署+边缘段部署)

GPU类型：g5.xlarge（NVIDIA A10G，24GB显存）或p3.2xlarge（V100，16GB显存），根据模型大小调整（如13B模型需g5.2xlarge）CPU≥16核，内存≥64GB（用于加载模型和缓存）可选优化：使用量化工具（如bitsandbytes）将模型从FP32转为4/8位整数（INT4/INT8），降低显存占用（7B模型INT4仅需约6GB显存）编写推理脚本（inference.py）：定义model_fn（加载模型）\predict_fn（处理请求）

2025-12-31 17:27:16 1505

原创企业级大模型训练常见的数据集

企业级大模型训练数据集的特点：常见的数据格式包括：企业级数据集构建流程①、数据收集与清洗②、数据标注框架企业级场景数据集案例一、金融风控场景二、医疗诊断辅助场景三、智能客服场景四、法律文档分析场景五、人力资源招聘场景数据集质量评估与验证数据集质量检查

2025-12-27 10:42:41 431

原创大模型基础研发（Python语言）VS 传统业务集成应用（Java/C#/Go等其他语言）

Transformer基于注意力机制的神经网络架构【原始结构是“Encoder-Decoder”（编码器-解码器）】，及其变体【Encoder-only只保留“编码器”（理解输入）， Decoder-only只保留“解码器”（生成输出）， Encoder-Decoder编码器（理解输入）+ 解码器（生成输出）】Common Crawl：通过AWS S3或HTTP接口下载（如https://data.commoncrawl.org/），提供WARC（网页存档）、WAT（元数据）、WET（纯文本）格式。

2025-12-25 16:27:29 1214

原创传统业务集成应用大模型案例

若需高性能（如实时对话），可将大模型推理引擎（如vLLM、TGI）封装为Java可调用的SDK（通过JNI或gRPC）；通过HTTP API调用第三方大模型（如OpenAI API、阿里通义千问），或在本地部署开源模型（如LLaMA系列），封装为RESTful服务供Java系统调用。开发模型网关服务（Spring Boot应用），接收Java业务系统请求，转发至第三方API（如OpenAI），处理认证、错误、缓存、监控，返回标准化响应。：调用第三方大模型API（如OpenAI/通义千问）的代码开发步骤。

2025-12-25 16:24:34 666

前后端分离项目部署关于logstash部署

前后端分离项目部署关于apollo部署

七种IDEA必备插件，引入外部插件的方式进行安装

jquery.min.js + extrascripts.js + touchscreens.js

支付宝交易，数据库连接客户端，远程连接工具

空空如也