机器学习
文章平均质量分 95
未收敛
【正在从算法转全栈ing】喜欢折腾AI和数据的小创作者,爱把复杂的技术讲得简单有趣,也喜欢在文字里记录灵感和思考。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【理论分析】信息熵的极值问题:什么时候最小?什么时候最大?
信息熵极值分析:完全确定与均匀分布的不确定性 信息熵公式 $H(X) = - \sum p(x_i) \log_2 p(x_i)$ 有两个关键极值: 最小值0出现在one-hot分布(某事件概率为1),此时系统完全确定; **最大值$\log_2 n$**出现在均匀分布(各事件概率相等),此时系统最难预测。通过函数分析和拉格朗日法可严格证明该结论。熵本质衡量系统整体不确定性:分布越集中熵越小,越均匀熵越大。需注意熵反映的是分布结构而非单个概率值,避免"概率小则熵小"的常见误区。原创 2026-04-12 22:50:30 · 589 阅读 · 0 评论 -
sklearn Pipeline:特征工程和建模流水线
本文介绍了使用sklearn的Pipeline和ColumnTransformer构建端到端机器学习流水线的方法。文章首先指出传统散装代码的问题:手动分步预处理容易导致训练/测试不一致、上线复现困难和调参代码膨胀。然后通过示例演示如何用Pipeline串联预处理步骤,用ColumnTransformer并行处理不同类型特征,最后与模型封装成统一对象。这种流水线化方法能确保预处理与模型训练的一致性,简化部署流程,并支持高效调参。文章还特别强调了生产环境中处理未知类别数据的安全策略。原创 2026-03-30 17:46:52 · 560 阅读 · 0 评论 -
【分箱进阶篇】分箱的工程细节:从训练到部署的完整模式
本文介绍了在机器学习项目中分箱处理的工程实践方法。主要内容包括:1)采用fit/apply分离模式,在训练集上计算切分点并保存,确保训练和测试集使用相同的分箱边界;2)处理边界值问题,通过替换首尾边界为无穷大来避免极端值导致的NaN;3)处理重复边界值的策略,包括自动合并重复切分点或为高频值创建专属分箱。文章通过Python代码示例演示了如何实现这些方法,并强调了分箱过程中保持数据一致性的重要性。这些技术可有效解决分箱在实际项目中的应用问题,提高模型稳定性和可靠性。原创 2026-03-30 10:28:57 · 515 阅读 · 0 评论 -
【分箱基础篇】pandas 分箱双子星:pd.cut 与 pd.qcut
维度pd.cutpd.qcut切分依据值域均匀(等距)样本量均匀(等频)核心参数bins(整数/列表)q(整数/分位数列表)切分点来源由值域范围决定,或手动指定由数据分位数决定偏斜数据表现部分箱样本极少各箱样本量接近典型用途业务有明确分段逻辑探索性分析、特征工程初始分箱复用方式直接复用bins列表先retbins取出 edges,再用cut复用 两个函数不是替代关系。实际项目中经常先用qcut探索数据分布、确定初始切分点,再根据业务需要用cut做精细调整。原创 2026-03-30 09:20:14 · 384 阅读 · 0 评论 -
【ScoreCard】评分卡模型全解析:从 A/B/C 卡到评分卡构建流程,一次讲透金融风控
评分卡模型是金融风控领域的核心工具,它将客户违约风险转换为可解释的信用分数。尽管深度学习兴起,评分卡因其可解释性、稳定性和易部署性仍是银行首选。评分卡分为贷前审批(A卡)、贷中管理(B卡)和贷后催收(C卡)三类,贯穿客户全生命周期。构建过程包括数据准备、清洗、特征工程(分箱和WOE编码)、逻辑回归模型训练及评分映射。逻辑回归因其与评分公式的天然契合成为评分卡的标准算法,能提供透明且稳定的风险量化结果。原创 2026-03-28 14:59:55 · 638 阅读 · 0 评论 -
【ScoreCard】评分卡转换:从概率到信用分,手把手推导评分公式
本文详细解析了评分卡的核心原理与实现方法。评分卡通过将逻辑回归输出转换为查表可得的分数,其核心公式为Score = A - B·ln(odds)。A和B由基准分和PDO两个业务参数决定,其中B=PDO/ln2。每个特征分箱的得分通过-B·θi·wij计算,最终得分为基础分与各特征分箱得分之和。这种设计既保持了逻辑回归的预测能力,又实现了高效部署,使其成为金融风控领域经久不衰的解决方案。原创 2026-03-28 14:54:22 · 426 阅读 · 0 评论 -
多分类评估指标数学推导:为什么 Micro 平均下 Precision = Recall = Accuracy?
摘要:本文通过数学推导证明,在单标签多分类问题中,Micro平均下的Precision、Recall和Accuracy三者数值恒等。核心原因在于单标签分类的结构约束:每个样本只能预测一个类别,导致错误预测时FP和FN数量相等。通过定义各类别的TP、FP、FN并推导其总和关系,最终得出Micro-Precision = Micro-Recall = Accuracy = ∑TP_i/N的结论。数值示例验证了这一恒等关系与数据分布无关,是单标签多分类问题的固有数学性质。原创 2026-03-10 16:06:14 · 279 阅读 · 0 评论 -
【特征工程】WOE (Weight of Evidence) 编码:算法实现详解
WOE(证据权重)是一种有监督的特征编码方法,主要用于信用评分和二分类建模。它通过计算每个类别中正负样本的分布差异来衡量特征对目标变量的区分能力:WOE>0表示正类倾向,WOE<0表示负类倾向。IV(信息价值)则评估特征整体预测能力,通过累加各类别贡献值计算得出。实现时采用加法平滑处理零值问题,并通过映射将原始类别替换为WOE值。该方法不仅能进行特征转换,还可用于特征筛选,IV值越大表示特征区分能力越强。原创 2026-03-09 15:35:21 · 476 阅读 · 0 评论 -
【二分类评估指标】理解 ROC:从原理到实践
二分类问题中,仅依赖准确率(Accuracy)评估模型存在局限,尤其在正负样本不平衡时。ROC曲线通过展示不同阈值下TPR(正样本识别率)与FPR(负样本误报率)的权衡关系,能更全面评估模型性能。AUC(曲线下面积)量化模型区分正负样本的能力,值越大性能越好。ROC曲线绘制原理基于阈值变化时TPR与FPR的动态平衡,其形态反映模型分类能力,而AUC则代表随机正样本预测值高于负样本的概率。相比准确率,ROC/AUC能更好评估模型在样本不平衡场景下的实际表现。原创 2026-01-26 15:23:02 · 604 阅读 · 0 评论
分享