weixin_43211414-CSDN博客

原创评分卡的制作与维护

PSI （Population Stability Index）称为群体稳定性指标，用来 “对比2个数据集的分布，是否发生比较大的偏差”，对比一定要有参照物，对评分卡模型来说，参照物是模型训练时的 “训练样本” (期望分布)，而评估对象称为 “验证样本”(实际分布)。如果下降幅度超过10% (比如: 训练集 KS = 0.50，4个月后 KS_4 = 0.45, 下降幅度为10%)，说明模型衰退明显，也就进一步说明其稳定性是有问题的。假设客户违约的概率为p，则正常的概率为1 − p。

2024-08-06 14:51:26 914

原创 Adaboost算法总结

Adaboost解决的是二分类问题思路数学表达式加法模型f(x)=∑i=1MαiGi(x)f(x) = \sum_{i=1}^M\alpha_iG_i(x)f(x)=i=1∑MαiGi(x)样本权重更新每一轮都记录好被当前弱分类器GiG_iGi正确分类和错误分类的样本，在下一轮训练时提高被错误分类的样本的权值，降低被正确分类的样本的权值，用以训练下一轮新的弱分类器Gi+1G_{i+1}Gi+1。如此，下一轮训练时，那些被错误分类的会得到更多的关注。弱分类器表决权重 αi

2024-08-06 14:45:57 1587

原创模型评估总结

如果错误预测的代价是均等的（假正例和假负例的代价一样），AUC曲线左侧的面积可以认为是假正例率的积分，再加上假负利率的积分，可以用来评估模型的总体代价。如果A 的ROC 能包住B的，则A模型的分类能力更好，因为：在任意一个截断点，A模型都有更高的真正例率，和更低的假正例率。两个模型A和B比较优劣时通过P-R曲线：A的P-R曲线如果能包裹B的，则A的分类性能更好：在相同的召回率，A有更高的精确率，在相同的精确率，A有更高的召回率。假正例率(假阳率)（错误预测为正例，实际为反例的数量占实际反例数量的比例）。

2024-08-06 14:31:57 875

原创时序数据分析：ARIMA, ACF, PACF

偏自相关系数(Partial Auto-Correlation Coefficient, PAC) 和自相关系数(Auto-Correlation Coefficient, ACF) 是两种常用的时间序列分析工具，可用于观察数据中是否存在某种模式或结构。如果数据中有明显的周期性变化，那么通过观察PAC和ACF，可以从这些指标中推断出数据的周期性特点。

2024-08-06 14:30:51 3400

原创数据分析大杂烩

在解释这些指标时，通常会关注置信度、lift 和支持度等，以确定规则的实用性和关联关系的强度。注：与随机森林不同，在标准的 Bagging 方法中，每个基学习器通常会使用所有的特征进行训练，而不会在每个决策点或节点上进行随机特征选择。轮廓系数，它用于评估聚类结果的质量，综合了样本与同簇内其他样本的相似度和样本与不同簇内样本的差异度。1、antecedents：关联规则的前项（antecedent）部分，即规则左侧的项集。8、leverage：杠杆率，表示规则的实际支持度与独立性的期望支持度之间的差异。

2024-08-06 14:29:43 784

原创线性判别分析（LDA）与主成分分析（PCA）

从原始的空间中顺序的找一组相互正交的坐标轴，新的坐标轴的选择与数据本身是密切相关的。其中，第一个新坐标轴选择是原始数据中方差最大的方向，第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大，第三个轴是与第1、2个轴正交的平面中方差最大的。通过这种方式获得的新的坐标轴，我们发现，大部分方差都包含在前面k个坐标轴中，后面的坐标轴所含的方差几乎为0。2). 以标签、类别衡量差异性的有监督降维方式，相对于PCA的模糊性，其目的更明确，更能反映样本间的差异；2). 两者在降维时均使用了矩阵特征分解的思想；

2024-08-06 14:28:37 721

原创相关性计算与显著性检验

点二列相关系数（Point-Biserial Correlation Coefficient）是用于评估一个二分类变量和一个数值变量之间的相关性的统计量。点二列相关系数的取值范围在-1到1之间。当相关系数接近-1时，表示数值变量与分类为1的情况呈负相关；在日常的数据分析工作中，卡方检验主要用于留存率，渗透率等漏斗指标，下面我们就以留存率为例，假设平台从微博、微信、知乎渠道引流，现在我们要确定留存率是否与渠道有关。其中，M1和M0是数值变量在分类为1和分类为0情况下的均值，p1是分类为1的观测值比例。

2024-08-06 14:25:47 3069

原创特征选择-selectKbest介绍

不同的评分函数可能适用于不同类型的数据和问题，而选择的 K 值会影响模型的复杂度和性能。SelectKBest 是一种特征选择方法，它的原理是在一组特征中选择出对目标变量（如分类或回归的输出）影响最大的 K 个特征。评分函数：选择一个评分函数来评估每个特征与目标变量之间的关联强度。这个评分函数根据特征的类型和问题的性质（分类或回归）来选择。选择特征：根据计算得到的评分，选择评分最高的 K 个特征。计算评分：对数据集中的每个特征应用评分函数，计算每个特征与目标变量之间的统计关联度。

2024-08-06 14:21:20 1171

原创【大数据采样】水塘采样通俗解释与归纳法推导

设采样数量为 k，遍历大数据 N（总数为 n），先取出前 k 个数据放到采样池（池子的容量为k），当遍历道第i个数据时，以 k / i 的概率放到采样池随机替换其中一个，如此一直到遍历结束。大数据抽样或者对或者数据流是连续不断的情况进行抽样，数据量远超内存，如何以相同的概率抽样呢？采样方法是有序的遍历操作，但实际上样本是无序的，即无论样本在第几个被遍历到的，它的被采样概率都是 k/n。这种采样方法怎么实现每个样本的被采样概率为 k/n的？分子不变，分母为第i个样本的i，容易归纳得出。

2024-08-06 14:16:41 315