- 博客(433)
- 收藏
- 关注
原创 深度学习框架:Keras
Keras 是一个模型级(model-level)的库,为开发深度学习模型提供了高层次的构建模块它不处理张量操作、求微分等低层次的运算。它依赖于一个专门的、高度优化的张量库来完成这些运算,这个张量库就是 Keras 的后端引擎(backend engine)Keras 没有选择单个张量库并将 Keras 实现与这个库绑定,而是以模块化的方式处理这个问题。
2026-02-14 14:35:06
658
原创 数学:神经网络的数学基础
NumPy 和 Pandas 中常用的数组/张量操作方法仅包含一个数字的张量叫作标量(scalar,也叫标量张量、零维张量、0D 张量)。在 Numpy中,一个 float32 或 float64 的数字就是一个标量张量(或标量数组)。用 ndim 属性来查看一个 Numpy 张量的轴的个数,标量张量有 0 个轴(ndim == 0),张量轴的个数也叫作阶(rank)数字组成的数组叫作向量(vector)或一维张量(1D 张量),一维张量只有一个轴。
2026-02-11 22:08:59
685
原创 心脏病预测+地学玄武岩分类预测(KNN算法应用)
②、探索数据间的相关性,绘制相关性热力图(选择斯皮尔曼系数,相对皮尔逊相关系数更为稳健),对于高相关性数据,进行手动剔除,实现数据的降维,消除冗余特征信息。通过数据探索(相关性探索),可以选择性手动删除高相关性特征(高相关性特征的信息蕴含基本一致,这会导致信息冗余),降低数据维度,让模型更好地学习“真本事”数据集来自收集的数据,其特征数据为玄武岩主、微量元素数据,标签为玄武岩类别,任务类型:二分类任务。特征数据存在多种类型的数据,其包括类别型数据、数值型数据和二元特征数据。按照7:3的比例划分数据集。
2026-02-10 16:04:10
490
原创 机器学习:正则化、交叉验证、关注梯度下降法
上述正则化技术方法中,关于超参数(本文中是惩罚系数λ)的理解:在机器学习中,超参数是模型训练前预设的、不能从数据中直接学习的配置参数(如学习率、网络层数、正则化强度),它们控制着模型的结构、训练过程与复杂度优化,其选择直接影响模型的性能与泛化能力,通常需要通过经验、网格搜索或贝叶斯优化等方法进行调优,是连接算法设计与实际应用效果的关键环节。正则化(Regularization)是一种在训练机器学习模型过程中,在损失函数中添加额外项,来惩罚过大的参数,进而限制模型复杂度、避免过拟合,提高模型泛化能力的技术。
2026-02-10 08:17:18
683
原创 机器学习:拟合、欠拟合与过拟合的关系
是指模型在训练集上表现得很好,但在测试数据或新数据上表现较差的情况。过拟合的模型对训练数据中的噪声或细节过度敏感,过度学习训练集的性质,从而失去了泛化能力。在机器学习模型的学习过程中,若模型能够准确地捕捉训练数据的模式,并且在未见过的新数据(测试数据)上也有良好的表现,那么模型就具有良好的泛化能力(拟合): 是指模型在训练数据上表现不佳,无法很好地捕捉数据中的规律。这样的模型不仅在训练集上表现不好,在测试集上也同样表现差。案例:使用常见多项式拟合在[-5,5]区间上拟合函数cos(x)
2026-02-09 20:43:33
396
1
原创 电网公司区域电力负荷预测(LSTM算法)
时序数据清洗(Spark)、特征工程(滑动窗口/多源特征融合)、LSTM模型构建(PyTorch)、模型训练与评估(MAE/RMSE/MAPE)、模型存储(MinIO):API网关、负荷预测服务(Python/FastAPI)、调度系统集成(Java/Spring Boot)、监控告警;业务价值:备用容量优化年降本2000万元,限电损失减少年1500万元,新能源消纳率提升10%:通过调度终端查看预测曲线,应急指挥系统基于预测结果制定切负荷策略。
2026-02-08 22:26:53
691
原创 电子厂PCB板焊点缺陷检测(卷积神经网络CNN)
图像预处理(去噪/裁剪)、数据增强(旋转/翻转)、CNN模型构建(ResNet迁移学习)、模型训练与评估、模型存储(MinIO):API网关、缺陷检测服务(调用CNN模型)、质检系统集成(缺陷标注/统计分析)、分拣控制系统(PLC联动)、监控告警CNN(卷积神经网络)是专为图像设计的深度学习模型,通过局部感知(卷积核提取局部特征)、权值共享(减少参数)、层次化特征提取(浅层边缘→中层纹理→深层语义),实现高效图像理解算法团队业务团队。
2026-02-08 22:26:12
869
原创 物流公司配送路径动态优化(Q-Learning算法)
算法团队:数据清洗(Spark)、特征工程(状态/动作/奖励特征)、Q-Learning模型训练(Ray分布式)、模拟环境构建(Gym)、策略存储(Feast)业务团队:API网关、路径优化服务(调用Q-Learning策略)、配送调度系统集成(司机APP/控制台)、监控告警物流运营团队:通过司机APP接收实时路径,调度员终端干预异常订单。
2026-02-07 20:38:45
588
原创 超市购物篮关联分析与货架优化(Apriori算法)
针对超市货架布局粗放(商品摆放凭经验)、交叉销售效率低(连带购买率<8%)、库存周转慢(滞销品占比12%)的痛点,采用Apriori算法挖掘购物篮商品关联规则,实现“商品共现模式→货架优化策略”的精准映射,支撑“关联商品就近陈列、促销组合推荐、库存联动管理”。Apriori原理与货架场景深度结合(支持度/置信度/提升度量化关联强度)、分布式事务数据处理(Spark)、动态规则更新机制(周级迭代)、业务团队货架优化系统集成。
2026-02-07 20:38:02
647
原创 电信运营商用户分群与精准运营(K-Means聚类)
算法团队:数据清洗、特征工程(衍生/标准化)、K-Means模型训练(K-Means++)、特征存储(Feast)、模型注册(MLflow);业务团队:API网关、用户分群服务(调用模型+特征服务)、运营平台集成、分群效果监控;基础设施团队:K8s集群、MinIO存储、CI/CD工具链。
2026-02-07 15:07:52
781
原创 电商客服工单自动分类(SVM支持向量机)
监控系统(Grafana)实时展示分类准确率、PSI(特征分布漂移)、API错误率,若PSI>0.25(数据分布变化),自动触发模型重训(Airflow调度算法团队重训流程)feature_store/feature_repo/features.py(定义实体、特征视图、在线/离线特征,业务团队通过此调用)(2)算法团队:SVM-RBF核模型训练(model_training/svm/train_svm.py)(1)算法团队:特征存储(Feast,明确内容)步骤3:特征变化对比表(原数据→处理后特征)
2026-02-06 17:50:26
1145
原创 银行个人贷款违约风险预测(逻辑回归)
③ 历史贷款数据库(historical_loans.csv,含标签)④ 第三方数据(社保/公积金,social_security.csv)① 信贷申请表(loan_applications.csv)还款能力:业务意义,衡量借款人的还款压力,比率越高风险越大。② 央行征信数据(credit_records.csv)Nginx配置(负载均衡)(1)原数据结构(示例)(2)数据清洗与特征工程。处理后的数据(特征矩阵)
2026-02-05 11:16:50
910
原创 零售连锁店生鲜品类销量预测——线性回归(Linear Regression)
某全国性连锁超市(如永辉)面临生鲜品类(蔬菜、水果)库存积压与缺货并存的问题,需精准预测各门店每日销量以优化采购业务痛点:某连锁超市生鲜品类(蔬菜、水果)因销量预测不准,导致库存周转率仅6次/年(行业标杆8次/年),损耗率8%(行业标杆≤5%),年损失超200万元项目目标:构建线性回归销量预测模型,实现“门店-品类-日期”维度的日销量预测(MAPE≤10%),支撑采购决策,目标库存周转率提升至7.5次/年,损耗率降至5.5%① POS系统销量数据(pos_sales.csv)
2026-02-04 15:45:26
733
原创 电商推荐系统(模型训练和服务化部署)
部署配置文件模型训练支持多种算法(LightGBM、XGBoost、CatBoost)修正补充:上述中的类别拟合代码:机器学习中,拟合指的是使用数据来训练模型或预处理器,从而学习到数据的的某些特性。对于标签编码器(LabelEncoder),拟合就是学习数据集中所有唯一类别,并为每个类别分配一个唯一的整数拟合阶段(Fit):转换阶段(Transform):原始数据——>拟合阶段(训练编码器)——应用编码(转换阶段)标签变化编码案例标准化数据特征数值特征标准化Stand
2026-01-30 21:53:44
698
原创 数值特征标准化StandardScaler和类别不平衡SMOTE
标准差是衡量数据集中数值分散程度或变异程度的一个重要指标,标准差越大,表示数据点越分散;标准差越小,表示数据点越集中(方差是标准差的平方)标准化值 = (原始值 - 均值) / 标准差。③、结合过采样和欠采样。
2026-01-28 15:27:23
443
原创 电商推荐系统(数据清洗和特征工程)
项目结构production.yaml生产环境配置和deploy_service.sh部署文件原始数据输出结果数据清洗模块特征工程基础特征提取高级特征工程
2026-01-24 13:48:49
773
原创 电商推荐系统生产配置+自动化部署脚本
Bash脚本,用于部署推荐系统服务到Kubernetes集群。它包含了构建Docker镜像、推送镜像、部署到Kubernetes、健康检查、集成测试、金丝雀发布(仅生产环境)和清理旧版本等步骤。{DB_PASSWORD},在部署前需要设置这些环境变量。②、使用PyYAML解析库进行配置加载。③、初始化数据源连接。
2026-01-19 21:20:16
299
原创 机器学习模型类型(XGBoost+LightGBM+DNN)
适用场景:图像、文本、语音等非结构化数据,或特征间存在复杂交互的结构化数据。适用场景:表格数据、分类/回归问题、特征维度适中的结构化数据。适用场景:大规模数据集、高维特征、需要快速训练的场景。类型:梯度提升树(GBDT)的优化实现。类型:梯度提升框架,微软开发。
2026-01-17 11:39:45
181
原创 OpenCV常用方法介绍
图像显示图像处理颜色空间转换图像变换滤波与平滑图像阈值与二值化边缘检测形态学操作轮廓检测绘图功能特征检测与匹配视频处理图像金字塔模板匹配Hough变换图像分割与前景提取总结:实用工具函数场景一:工业视觉检测 - 产品缺陷检测 (智能制造 - 工业零件缺陷检测系统)算法融合检测流程检测算法融合策略①、边缘检测(Canny):适用于检测裂纹、边缘破损②、阈值分割:适用于表面污点、凹坑③、模板匹配:适用于尺寸和形状验证场景二:安防监控
2026-01-11 14:27:28
827
原创 算法设计思想以及分类大纲+算法类竞赛简单介绍
为了有效地选择下一扩展结点,以加速搜索的进程,在每一活结点处,计算一个函数值(限界),并根据这些已计算出的函数值,从当前活结点表中选择一个最有利的结点作为扩展结点,使搜索朝着解空间树上有最优解的分支推进,以便尽快地找出一个最优解。类似于回溯法,也是一种在问题的解空间树T上搜索问题解的算法。对于一个规模为n的问题,若该问题可以容易地解决(比如说规模n较小)则直接解决,否则将其分解为k个规模较小的子问题,这些子问题互相独立且与原问题形式相同,递归地解这些子问题,然后将各子问题的解合并得到原问题的解。
2025-12-31 21:49:22
736
原创 企业级大模型创建与部署全流程(数据集—>创建模型—>训练模型—>评估模型—>部署模型)
前向传播是数据流动的过程,全连接层和激活函数是构建模型的基础,输出层和任务头决定任务类型,学习率和损失函数驱动训练,反向传播和优化器调整权重,而过拟合是需要避免的陷阱。②、模型架构(任务头+反向传播+):在预训练模型的基础上,添加任务特定的输出层。①、使用测试集评估模型性能。大模型预训练后,针对不同的下游任务添加的“专用输出层”(后面接不同的任务头来做具体任务,预训练模型通常不包括任务特定的输出层)在NLP任务中,通常在预训练模型的输出之上添加一个或多个全连接层,将模型输出的高维向量映射到任务所需的维度。
2025-12-31 21:17:16
942
原创 大模型部署方式(本地化部署+云端部署+混合部署+边缘段部署)
GPU类型:g5.xlarge(NVIDIA A10G,24GB显存)或p3.2xlarge(V100,16GB显存),根据模型大小调整(如13B模型需g5.2xlarge)CPU≥16核,内存≥64GB(用于加载模型和缓存)可选优化:使用量化工具(如bitsandbytes)将模型从FP32转为4/8位整数(INT4/INT8),降低显存占用(7B模型INT4仅需约6GB显存)编写推理脚本(inference.py):定义model_fn(加载模型)\predict_fn(处理请求)
2025-12-31 17:27:16
1265
原创 企业级大模型训练常见的数据集
企业级大模型训练数据集的特点:常见的数据格式包括:企业级数据集构建流程①、数据收集与清洗②、数据标注框架企业级场景数据集案例一、金融风控场景二、医疗诊断辅助场景三、智能客服场景四、法律文档分析场景五、人力资源招聘场景数据集质量评估与验证数据集质量检查
2025-12-27 10:42:41
382
原创 大模型基础研发(Python语言)VS 传统业务集成应用(Java/C#/Go等其他语言)
Transformer基于注意力机制的神经网络架构【原始结构是“Encoder-Decoder”(编码器-解码器)】,及其变体【Encoder-only只保留“编码器”(理解输入), Decoder-only只保留“解码器”(生成输出), Encoder-Decoder编码器(理解输入)+ 解码器(生成输出)】Common Crawl:通过AWS S3或HTTP接口下载(如https://data.commoncrawl.org/),提供WARC(网页存档)、WAT(元数据)、WET(纯文本)格式。
2025-12-25 16:27:29
1174
原创 传统业务集成应用大模型案例
若需高性能(如实时对话),可将大模型推理引擎(如vLLM、TGI)封装为Java可调用的SDK(通过JNI或gRPC);通过HTTP API调用第三方大模型(如OpenAI API、阿里通义千问),或在本地部署开源模型(如LLaMA系列),封装为RESTful服务供Java系统调用。开发模型网关服务(Spring Boot应用),接收Java业务系统请求,转发至第三方API(如OpenAI),处理认证、错误、缓存、监控,返回标准化响应。:调用第三方大模型API(如OpenAI/通义千问)的代码开发步骤。
2025-12-25 16:24:34
617
原创 SDK:gRPC+JNI
高性能、开源的远程过程调用(RPC)框架,由Google开发,基于Protocol Buffers(Protobuf) 序列化协议,支持多语言、流式通信、负载均衡。将复杂系统(如大模型推理引擎)的能力,通过标准化接口、工具集、文档封装成易用的软件开发包(SDK),供上层业务系统直接调用。Java提供的跨语言调用接口,允许Java代码与C/C++等“原生代码”直接交互(如调用本地动态库.so/.dll)用C++实现推理逻辑(如调用TensorRT加速的模型),并暴露为动态链接库(.so/.dll)
2025-12-25 14:45:43
469
原创 PyTorch的分布式训练策略:DDP + DeepSpeed + TensorFlow的分布式训练策略:MirroredStrategy
①、数据并行:把一批数据拆成N份(N=GPU数量),每张GPU算1份数据的“前向+反向传播”,算出各自的梯度后同步平均,再用这个平均梯度更新所有GPU的模型参数(保证所有卡模型一致)企业案例:某电商用PyTorch DDP+DeepSpeed训练“用户评论情感分类模型”(BERT-base,1.1亿参数),用8张A100 GPU数据并行核心作用:提速(多卡同时算不同数据),适合模型不大但数据量大的场景(如推荐、CTR预估)
2025-12-23 14:24:02
916
原创 Java业务场景(高并发+高可用+分布式)
分布式事务:Seata TCC模式(金融转账强一致,用户A向用户B转账100元,需保证A扣款、B加款同时成功或同时失败)限流:Sentinel注解式限流(应对秒杀大促流量,如电商秒杀接口需要限制每秒最多1000次请求,防止系统过载)缓存穿透:布隆过滤器(防止恶意查询不存在的数据,频繁查询不存在的商品导致缓存失效、DB压力骤增)DDD聚合根与领域服务(电商订单域,订单创建需校验库存、计算优惠、生成订单号,涉及多个实体协作)加载静态规则(JSON 文件,基础防护)jvm启动参数(生产环境推荐)
2025-12-16 22:37:36
464
原创 SpringBoot配置文件与代码读取机制(Spring自动+自定义+第三方,独立文件)
ai:execution://推荐使用:@ConfigurationProperties@Data@Data//其他配置类……略@Service@Autowired自定义业务配置app:payment:new-checkout-enabled: true # 功能开关//使用JSR-303校验配置@Validated@NotBlank@Min(1000)
2025-12-10 09:13:32
704
原创 java银行bank-core核心业务层(二)支付中心+信贷中心+风控中心
支付网关设计支付状态机支付路由与通道管理支付对账与结算credit-center(信贷中心)涉及贷款审批流程,可能使用工作流引擎(如Activiti)来管理审批流程。信贷产品管理和动态配置自动化审批流程和工作流引擎额度计算和风险定价贷后管理和催收策略贷款申请贷后管理(CC6):贷款五级分类:信贷产品管理信贷审批流程贷款发放管理risk-center(风控中心)集成多种风控规则,可能使用规则引擎(如Drools)来执行风控规则。规则引擎和机器学习双引擎实时风险
2025-12-06 14:22:25
479
原创 java银行bank-core核心业务层(一)用户中心+账户中心+交易中心
完整项目结构bank-core核心业务部署架构业务用例图:展示了各中心的业务功能和参与者关系类设计关系图:展示了系统的核心类结构和它们之间的关系数据库设计图:包含关系型数据库、NoSQL数据库和搜索引擎的设计部署架构图:展示了系统的物理部署结构时序图:展示了核心业务流程的执行顺序重点在用户身份认证和权限管理,可能涉及OAuth2、JWT等。个人客户:身份证+手机号验证企业客户:营业执照+法人认证+对公账户验证权限控制:RBAC角色权限模型Maven依赖配置领域模型Mapper层实现
2025-12-05 16:03:40
993
原创 Hive基于Hadoop的数据仓库工具
可以将结构化的数据文件映射为一张数据库表,并提供简单的 SQL 查询功能,将 SQL 语句转换为 MapReduce/Tez/Spark 任务运行。企业级数据仓库(EDW)数据湖查询引擎历史数据分析数据清洗和转换数据格式转换数据质量检查每日/每周/月度报表用户行为分析业务指标计算数据科学家进行数据探索即席查询分析。
2025-11-24 15:32:52
590
支付宝交易,数据库连接客户端,远程连接工具
2022-10-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅