kdd数据集_数据建模分析复习

最新推荐文章于 2024-04-15 09:28:25 发布

weixin_39718173

最新推荐文章于 2024-04-15 09:28:25 发布

阅读量660

点赞数

文章标签： kdd数据集

数据挖掘基础理论
数据可视化
预处理
机器学习模型
模型评估指标
过拟合欠拟合

数据挖掘基础理论

起源：2000年
定义：从大量数据中提取隐藏在其中的，事先不知道的、但潜在有用的信息的过程。
目标：建立一个决策模型
KDD（Knowledge Discovery from Database）：数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示
CRISP-DM（cross-industry process for data mining）：业务理解、数据理解、数据准备、建模、模型评估、模型发布
SEMMA：抽样（sample）、探索（explore）、修订（modify）、建模（model）、评估（assess）
变量测量类型：名义测量、次序测量、连续变量测量
描述性统计分析：分类变量（频次、百分比、累积频次与累积百分比）；连续变量（中心水平、离散程度、偏态程度、峰度）
距离相似度计算：欧氏距离、曼哈顿距离、明可夫斯基距离、余弦夹角，散度

数据可视化

具体情况具体分析

countplot看标签分布
箱型图、直方图看单维数据分布
corr+heatmap相关系数
factorplot将三维转成二维呈现

数据预处理

字段选择：数据整合、数据过滤
数据清洗：噪声（错误值-类别属性离群值-数值属性）消除、缺失值填补
离群值：探测（排序平均值上下三个标准差四分位法）；处理（视为空值天花板or地板法函数矫正）
缺失值：直接忽略（缺失>50%）人工填补（电话确认）自动填补（python）推论法（参考其他字段）
数据正规化标准化（量纲处理）：极值（0-1）标准化（Min-Max Normalization）、Z-score标准化、Sigmoid压缩法（
)
数据泛化：利用数据的概念阶层将数据向上提升为较抽象的层次（教育-高等教育基础教育）
数据离散化：数值型数据转类别型数据（人工分离、等宽等深分箱）
数据精简：记录精简（抽样-随机分层群集系统两阶段式）、数值精简（连续型数据-离散化；类别型-一般化）、字段精简（通过统计手段筛选对模型重要性较高的字段）
数据分区：训练集（80%or70%）测试集（20%or30%）、训练集（60%）测试集（20%or30%）验证集（20%or10%）
特征提取技术：卡方检验（评估类别型变量与目标变量间的相关程度，显著性小于等于0.05，则该变量与目标变量间相关程度大）、ANOVA/T检验（评估数值型变量与目标变量之间的相关程度）、
补充：在SAS EM中，逻辑回归模型对于变量的选择是依据R-squared检验；决策树是依据卡方检验
变量压缩技术：连续变量（主成分分析因子分析变量聚类）；离散变量（WOE打分水平聚类）
特征选择技术：尝试所有组合贪心算法（step-wise forward selection） L1正则树算法相关性计算

模型

有监督学习

KNN：
惰性学习，将未知类别数据归类到与它们最相似的带标记的案例所在的类。
需要对数据量纲进行处理。
超参数：K（3-10）

朴素贝叶斯：
生成模型，先验+数据=后验。
假设属性间相互独立，直接用概率预测，易于理解。
Tips：1. 如果连续特征不是正态分布，应该将其转为正态分布 2. 测试数据集出现“零概率”，使用“拉普拉斯平滑”修正数据集 3. 删除重复出现的高度相关的特征 4. 在参数调整上选择有限，重点放在数据预处理和特征工程

贝叶斯网络：（改进朴素贝叶斯关于属性独立的假设）
概率图模型，网络拓扑结构是有向无环图DAG。
节点表示随机变量，认为有因果关系的变量或命题用箭头连接，连线上权重是条件概率值。

线性回归：
变量加权平均。
相关系数、皮尔森相关系数
效能评估：MAE/MSE/RMSE/R^2/Adjusted R^2/AIC/BIC
解决矩阵不可逆问题：ridge岭回归（等同加L2正则）
进行特征选择：lasso（等同加L1正则）
结合ridge和lasso：弹性网

逻辑回归：（线性回归的变化，思想来源于多元线性回归）
预测事件发生的概率，将线性回归的值压制在0~1。
逻辑回归和类神经网络使用的Sigmod函数是一个函数，将类神经网络隐藏层数设为0即可模拟逻辑回归。
字段选择方式：前向递增（forward）、后向递减（backward）、逐步回归（stepwise）
梯度下降：批量梯度下降（Batch Gradient Descent）、随机梯度下降（Stochastic Gradient Descent）、小批量梯度下降（Mini-batch Gradient Descent）

决策树：（实现分治策略的层次数据结构，非参数学习）
白盒模型，易于解释和理解。算法包括：特征选择、决策树的生成与决策树的剪枝。
网格调参

ID3：使用信息增益（information gain）作为属性选择方法，所有特征要求为离散。

，熵越高信息不纯度越高
，贪心算法，选最大信息增益
缺点：信息增益倾向于选择取值较多的属性，不能处理连续值属性和带有缺失值的属性。

2. C4.5：使用信息增益比（Gain Ratio）改进ID3，能处理nan，可剪枝，可处理连续型变量。

信息增益比定义为其信息增益与训练数据集关于某一特征的值得熵之比
并不是直接选择增益率最大的候选划分属性，而是使用启发式：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。
一个连续变量有N个值，则在C4.5处理过程中将产生N-1个备选点，每个切分点代表一种二叉树的切分方案。
包含连续变量的数据集进行树模型构建过程中要消耗更多运算资源，但为连续变量的分箱压缩提供了指导性意见。

3. C5.0：加入分支度（Information Value），修订C4.5使其适用于处理大数据集。

剪枝：预剪枝（CHAID），后剪枝

4. CART：二叉树，使用gini系数。用于回归时是基于到达叶节点的案例的平均值作出预测。

，对不纯度的惩罚力度没有熵那么强，熵容易过拟合。
利用验证集进行剪枝（是验证集用于修正模型的最佳体现）：1. 判断每个叶节点在验证集上的错误率；2. 计算子节点总加权平均错误率并和父节点进行比较；3. 比父节点错误率小则保留该节点。

5. CHAID：（卡方自动交互检测，即字段选择用卡方）

核心思想：根据给定的目标变量和经过筛选的特征指标（即预测变量）对样本进行最优分割，按照卡方检验的显著性进行多元列联表的自动判断分组。

感知机：
是参数模型，损失函数和SVM最原始的损失函数很像，参数个数是特征个数。
收到多个输入信号，以一个信号输出的结构
单层感知机可处理线性问题（即使用前提是数据线性可分），但无法处理非线性问题（XOR）。

神经网络：
黑箱模型，不可解释，训练速度慢，需要大量样本。深层次高纬度的神经网络就是深度学习。
结构：输入层、隐藏层、输出层，层与层之间全连接。（隐藏层之间的堆砌，能处理的范围和算法复杂程度是呈指数增长的）
神经元由上一层神经元与本层神经元交叉形成的神经键、权重加总、常数项以及激活函数组成。
Sigmod：
，

，softmax，ReLU
针对类别型数据，要摊平处理；针对数值型数据，要标准化处理
过程：随机初始化权重，前向传播，损失函数计算输出层，反向传播算梯度，更新权重
新权重值=旧权重值+学习效率*前节点输出值*后节点误差值

SVM：
在解决小样本、非线性及高维模式识别中有优势。训练模型阶段就是在寻找具有最大边界的超平面，投影到高维空间寻找最优解。
是凸优化问题，总能找到全局最小。
对缺失数据敏感。
核函数：线性核函数、多项式核函数、高斯核函数、Sigmoid核函数
拉格朗日、KKT条件、SMO算法

集成算法 ：

Bagging：选用相同的弱学习器作为基模型，每个基模型的训练数据不是全部的数据集，而是通过“有放回的随机抽样”得到的随机子集，预测时各个基模型进行权重投票，是一种并行的训练结构。

随机森林：体现样本选择上的随机性，以及特征选择的随机性，模型泛化误差随树的数量增多而收敛（前提是每棵树的正确率在50%以上）。随机抽样会产生袋外数据，可以不分测试集（前提是数据量够大才会有袋外数据）。

Boosting：选用相同的弱分类器作为基模型，依次训练模型，每个基模型的训练数据会根据前一个基模型的预测结果进行调整。后一个基模型会重点关注前一个基模型预测错误的样本，逐步修正前面基模型的误差，最终预测结果通过基模型的线性组合来产生，是一种串行的结构。

AdaBoost：前一个分类器分错的样本会得到更高的权重（使其在下一轮更容易被抽到），加权后的全体样本再次被用来训练下一个基分类器。
XGBoost/GBDT

2. 无监督学习

聚类：（旨在理解数据自然结构，簇原型技术）
KNN是监督分类，聚类分析是非监督分类。
聚类算法分类：基于划分（K-MeansK-MedoidsCLARANS）、基于层次（BIRCHCURECHAMELEON）、基于密度（DBSCANOPTICSDENCLUE）、基于网格（STINGCLIQUEWAVE-CLUSTER）
K-Means：越相近越相似
凝聚度
，

的凝聚度就是该簇的SSE；分离度

，计算某簇质心到数据集总体质心之间的分离度
轮廓系数：结合凝聚度和分离度。1.对于第i个对象，计算它到簇中所有其他对象的平均距离
; 2. 对于第i个对象和不包括该对象的任意簇，计算该对象到给定簇中所有对象的平均距离。关于所有簇，找出最小值

; 3. 轮廓系数

，值在-1到1变化，不希望出现负数。可计算所有点平均轮廓系数，得到聚类效果优良性总度量，在模型选取不同质心数量的情况下对模型聚类效果进行纵向比较，进而能给最终聚类数量提供建议。
DBSCAN：核心点（该点在给定领域内的点的个数超过给定的阈值MinPts）、边界点（不是核心点但落在某个核心点的领域内）、噪声点（非核心点也非边界点）
1.将所有点标记为核心点、边界点、噪声点；2. 删除噪声点；3. 为在Eps内的所有核心点间赋一条边；4. 每个彼此联通的核心点组成一个簇； 5.将每个边界点指派到一个与之关联的核心点的簇当中
层次聚类：（针对小样本精确聚类，核心内容是关于簇和元素或簇和簇之间的邻近度度量方法）
树状图中两个簇合并处的高度反映两个簇的距离
簇邻近度计算：单链MIN、全链MAX、组平均
Ward：两个簇的邻近度定义为两个簇合并时导致的平方误差的增量。

Apriori：（关联规则）
用来找出数据值中频繁出现的数据集合，逐层产生关联规则。关联规则的发现是指找出支持度大于等于minsup且置信度大于等于minconf的所有规则。
支持度
X对Y的置信度
提升度
提升度大于1，则
是有效的强关联规则，小于1无效，等于1则X和Y独立。
先验原理：如果一个项集是频繁的，则它的所有子集都是频繁的。
二项集组成三项集的方法：先对内部项集排序，寻找第一项相同的那些二项集拼接成三项集
FP-TreeGSPCBA利用Aprior思想并对其做了改进。

FP-Growth：（FP-Tree）
无论多少数据，只需扫描两次数据集。不同于Aprior“产生-测试”范型，而是使用FP树的紧凑数据结构组织数据，并直接从该结构中提取频繁项集。
FP树是一种输入数据的压缩表示

PrefixSpan
挖掘频繁序列模式，序列模式是找出产品间先后购买的关联性。
算法目标是挖掘出满足最小支持度的频繁序列。
序列模式分析：1. 数据排序； 2. 查找数据集； 3. 数据转换阶段； 4. 序列分析； 5. 得出结论
序列模式的结果不需要是连续发生的，只要符合先后顺序即可。
关联规则关注哪些项一起出现，序列规则关注哪些项在不同时间出现且有先后顺序规律。

推荐系统：
信息过载处理方式：“拉模式”（搜索引擎）、“推模式”（系统信息推送）
个性化推荐的场景：要有足够大量的数据、要有足够的用户分众、要有足够丰富的内容
指标：离线（RMSEMAEPrecisionRecall）；线上（点击通过率CTR）
用户相似性计算指标：皮尔逊相关系数余弦相关系数杰卡德相关系数
基于用户的协同过滤（社会化）：将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度，找到相似邻居后，根据邻居的相似度权重以及他们对物品的偏好，预测当前用户对没有涉及的物品的偏好，计算得到一个排序的物品列表作为推荐。（离线计算）
基于物品的协同过滤（个性化）：将所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度，得到物品相似物品后，根据用户历史的偏好预测当前用户还没有表示偏好的物品，计算得到一个排序的物品列表作为推荐。（适用于物品数明显小于用户数的场合）

评估指标

混淆矩阵（python中的confusion_matrix左边是true class上面是hypothesis output）
正确率
响应率
查全率
，cumulative for 1，在已有判别结果中（阈值往上），判对了的1所占的比例
特异度
，cumulative for 0，在已有判别结果中（阈值往上），判对了的0所占的比例
F-指标
ROC：横轴cumulative for 0，纵轴cumulative for 1，曲线下方面积为AUC

过拟合欠拟合

尝试获得更多训练实例——解决高方差
尝试减少特征数量——解决高方差
尝试获得更多特征——解决高偏差
尝试增加多项式特征——解决高偏差

方差大，偏差大——换模型
方差大，偏差小——过拟合
方差小，偏差大——欠拟合
方差小，偏差小——Good！

weixin_39718173

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
kdd数据集_数据建模分析复习

目录数据挖掘基础理论数据可视化预处理机器学习模型模型评估指标过拟合欠拟合数据挖掘基础理论起源：2000年定义：从大量数据中提取隐藏在其中的，事先不知道的、但潜在有用的信息的过程。目标：建立一个决策模型KDD（Knowledge Discovery from Database）：数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示CRISP-DM（cross-industry pro...
复制链接

扫一扫