![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘笔记
文章平均质量分 84
mhuang..
这个作者很懒,什么都没留下…
展开
-
对时序数据进行分类与聚类
我在最近的工作中遇到了一个问题,问题是我需要根据银行账户在一定时间内的使用信息对该账户在未来的一段时间是否会被销户进行预测。这是一个双元值的分类问题,只有两种可能,即会被销户和不会被销户。针对这个问题一般来说有两种解决策略。下面我会使用这两种算法,运行并对比结果,然后找到最合适的算法。原创 2023-09-07 10:13:35 · 2290 阅读 · 1 评论 -
金融风控数据分析-信用评分卡建模(附数据集下载地址)
本文从信用卡评分的基础概念开始,理解信用评分卡在风控中发挥的作用。第二部分使用公开的信用数据集从0到1建立了一个信用评分卡。包括数据的探索性分析,数据预处理,评分卡建模,评分卡生成以及最后的有效性验证。在建模过程中也交叉地介绍了一些理论概念,这也有助于理解每一个步骤具体含义。整体上梳理了风控中信用评分卡的建模流程。原创 2023-08-31 14:28:35 · 3317 阅读 · 1 评论 -
(笔记)线性判别分析LDA
Sw可能是奇异的,(如果存在数据属性方差为0) 那么就求不了逆 也就是算不出Sw。所以,哪怕在有标签类别的数据中,LDA也不是一定比PCA好的(比如下图的情况),所以在实际情况中需要先对样本进行分析。在实际应用中,可以用计算协方差的公式来计算散度矩阵,一般的仿真平台都会封装好计算协方差的函数,对于一个协方差公式。当样本均值相等时,LDA会失效,因为对于如果两样本均值相等,那么分子一定为0,在这个情况下怎么投影都没有用。PCA适用于无标签的数据中,LDA适用于有标签。来说,其散度矩阵的表达式就为。原创 2023-07-21 19:21:06 · 112 阅读 · 0 评论 -
(笔记)深度理解-主成分分析PCA
其中,第一个新坐标轴选择是原始数据中方差最大的方向,第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的,第三个轴是与第1,2个轴正交的平面中方差最大的。根据特征选择的原理,我们认为方差越大对应的信息越丰富,换句话说,我们需要找到一个合适的特征使得映射在这个特征上的数据信息损失尽可能的少。那么我们如何得这个方差最大的主成分方向呢,最经典的方法是特征值分解协方差矩阵,得到协方差矩阵的特征值和特征向量,选择特征值最大(即方差最大的)k个特征向量组成的矩阵。,e是任意一个特征轴的单位向量。原创 2023-07-20 17:06:34 · 175 阅读 · 0 评论