Intro
why DM
数据的急剧增长,产生了需求。
whats DM?
从海量数据中发现有趣的模式和知识。
KDD(knowledge discovery in databases)
过程:
数据清理,数据集成,数据选择,数据变换,模式发现,模式评估和知识展示。
KDD(knowledge discovery in databases)
Multi-Dimensional View of Data Mining
主要的维是数据、知识、技术、应用。
What Kind of Data Can Be Mined
- Database-oriented data sets
关系数据库、 数据仓库 - Advanced data sets and advanced applications
流数据和传感器数据
时序数据
结构化数据 图 社交网络
etc
What Kinds of Patterns Can Be Mined?
- Data Mining Function:
- generalization(类或概念描述:特征化和区分)
- 关联和相关度分析
frequent pattern
eg.diaper->beer[0.5%,75%] (support,confidence)
相关联但不具有相关性) - classification and label prediction
- cluster (unsupervised)
Principle: 最大化类内相似度,最小化类间相似度 - Outlier Analysis 离群点分析
Outlier: A data object that does not comply with the general behavior of the data 与数据的一般行为不一致
用于欺诈检测 - Time and Ordering: Sequential Pattern, Trend and Evolution Analysis
回归和值预测 - Structure and Network Analysis
图挖掘
信息网络分析(社交网络)
网络挖掘(网络热点的lifeline)
- Are all mined knowledge interesting?
根据support 和confidence决定是否有趣
What Technology Are Used
多种学科的汇集
What Kind of Applications Are Targeted
网页分析
协同分析和推荐系统
生物医学分析
Major Issues in Data Mining