数据挖掘笔记一(Intro)

Intro

why DM

数据的急剧增长,产生了需求。

whats DM?

从海量数据中发现有趣的模式和知识。
KDD(knowledge discovery in databases)
过程:
数据清理,数据集成,数据选择,数据变换,模式发现,模式评估和知识展示。
KDD(knowledge discovery in databases)
这里写图片描述

Multi-Dimensional View of Data Mining

主要的维是数据、知识、技术、应用。

What Kind of Data Can Be Mined
  • Database-oriented data sets
    关系数据库、 数据仓库
  • Advanced data sets and advanced applications
    流数据和传感器数据
    时序数据
    结构化数据 图 社交网络
    etc
What Kinds of Patterns Can Be Mined?
  1. Data Mining Function:
    • generalization(类或概念描述:特征化和区分)
    • 关联和相关度分析
      frequent pattern
      eg.diaper->beer[0.5%,75%] (support,confidence)
      相关联但不具有相关性)
    • classification and label prediction
    • cluster (unsupervised)
      Principle: 最大化类内相似度,最小化类间相似度
    • Outlier Analysis 离群点分析
      Outlier: A data object that does not comply with the general behavior of the data 与数据的一般行为不一致
      用于欺诈检测
    • Time and Ordering: Sequential Pattern, Trend and Evolution Analysis
      回归和值预测
    • Structure and Network Analysis
      图挖掘
      信息网络分析(社交网络)
      网络挖掘(网络热点的lifeline)
  2. Are all mined knowledge interesting?
    根据support 和confidence决定是否有趣
    这里写图片描述
What Technology Are Used

多种学科的汇集
这里写图片描述

What Kind of Applications Are Targeted

网页分析
协同分析和推荐系统
生物医学分析

Major Issues in Data Mining

这里写图片描述
这里写图片描述

summary

这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值