数据挖掘学习流程

最新推荐文章于 2023-09-03 13:14:29 发布

庸_才

最新推荐文章于 2023-09-03 13:14:29 发布

阅读量813

点赞数

分类专栏：学习笔记文章标签：数据挖掘机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42486070/article/details/91396998

版权

学习笔记专栏收录该内容

11 篇文章 0 订阅

订阅专栏

第一章

大数据 4V
Velocity very-large

数据挖掘
从海量数据中挖掘出令人感兴趣的、有价值的信息

数据挖掘的任务
关联规则、分类、聚类、离群点检测

知识发现流程
数据挖掘——核心

数据挖掘与其他学科的关系
数据库、数学、物理

第二章

属性分类：分类、数值
数据的统计描述：
中心性：均值、中位数、中列数、众数
散度：极小/大值、方差、标准差、百分位数

相似性度量
标称型：Jaccard距离
数值型：曼哈顿距离、欧几里得距离、马氏距离、相关系数、KL散度

数据预处理步骤
1.数据清理（缺失值、噪声）
2.数据集成
冗余分析（标称（离散）：卡方检验，数值（连续）：相关分析）
3.数据归约
维度归约：PCA、小波、特征筛选
数量归约：采样、聚类
4.数据变换（处理量纲不一致问题）
最小最大归一化X`=(X-Xmin)/(Xmax-Xmin)
Z-ScoreX`=(X- _X_ )/sigma

## 第三章关联规则

基本定义
什么是关联规则
最小支持度、置信度

Apriori算法
基本思想（子集/超集的频繁/非频繁关系）
流程
计算（可能存在逆关系）

提高Apriori的方法

FP-Growth算法
与Apriori的区别：
Apriori：产生候选项->测试
FP-Growth:生成FP树，然后在FP树上直接寻找频繁项

支持度+置信度+提升度（兴趣因子）

## 第四章分类

生成模型/判别模型（区别）
生成：尝试得到X、Y的联合概率分布P(x,y)
判别：得到条件概率P(y|x)

分类/回归
离散/连续

DT(Decision Tree)
如何构建
测试属性选择准则：使得划分出的子集纯度尽量大
   信息增益（ID3）
   信息增益率(C4.5)（避免属性值过多导致的不公平选择）
   基尼指数（CART）

过拟合问题
训练数据类的条件分布与测试集不同
如何避免过拟合问题
增加样本量、去除噪声、降低模型复杂度、Train-Validation-Test（工程用验证集）、加正则项(Regulization控制模型复杂度)

DT如何避免过拟合
控制树的高度
控制DT中叶子结点对象多少
剪枝：先/后剪枝

KNN（懒惰学习）
优点：简单、易于实现，多分类问题，多标记问题，在线学习（流式学习）
缺点：类不平衡问题，K值选取，噪声敏感，运算时间

Naive Bayes
P(C|X) = P(X)*P(X|C)/P(X)
Argmax P(X)*P(X|C)
类条件独立假设
Argmax P(Ci)= P(Xk|Ci)*****k=1~n

SVM
基本思想：类的间隔最大化
优点：小样本：决策面只与支持向量相关
高维
泛化能力（结构风险而非经验风险）
核函数->非线性问题

BP(ANN)

集成学习
准则：每个基分类器足够好，多样性
三个策略：
   Bagging基本思想（Random Forest）
   Boosting基本思想（AdaBoost）
   Starking

分类评估
精度、召回率
类不平衡：sensitivity、specificity

## 第五章聚类及离群点检测

什么是聚类
聚类的分类（划分、层次、网格、密度）

K-Means原理及计算

DBSCAN
优点：任意形状簇、对噪声鲁棒、不需要设置K值
缺点：Minpts/e

什么是离群点及分类

局部离群点LOF算法

## 第六章

Hash技术
MinHash->如何计算签名矩阵
LSH(Local Sensitive Hash)->把输入矩阵划分为k个Band，若相似，则至少有一个Band？

数据流
挑战：单次扫描，低时间复杂度，低空间复杂度，概念漂移P(C|X)改变

如何检测概念漂移
基于分布
基于错误率

分类
CVDT(Hoefdig Band)
Syncstvemn

聚类
在线抽象数据（微簇、CF(Cluster Feature)）
线下聚类：DBSCAN、K-Means

大数据平台
什么是Hadoop
Hadoop生态：HDFS、MapReduce
MapReduce的缺点
Spark(什么是)
Spark与MapReduce的对比：
   MapReduce适合单轮迭代，Spark适合多轮迭代
   MapReduce共享机制不好
   Spark扩展了RDD
   Spark有丰富的API

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘学习流程

第一章大数据 4VVelocity very-large数据挖掘从海量数据中挖掘出令人感兴趣的、有价值的信息数据挖掘的任务关联规则、分类、聚类、离群点检测知识发现流程数据挖掘——核心数据挖掘与其他学科的关系数据库、数学、物理第二章属性分类：分类、数值数据的统计描述：中心性：均值、中位数、中列数、众数散度：极小/大值、方差、标准差、百分位数...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。