【数据挖掘】第1章 绪论

1 绪论


前言

数据挖掘应用:人脸识别、语音识别、手写数字识别、垃圾邮件过滤、电子商务网站的推荐算法…
为什么进行挖掘数据?
(商业)
大量数据被收集,存储在数据库 数据仓库中;
计算机越来越便宜,功能越来越强大;
竞争压力越来越大
(科学)
数据以极快的速度收集和存储 (GB/hour);
传统的技术难以处理这些原始数据;
数据挖掘可能帮助科学家

基础知识

1)数据挖掘

  • 数据挖掘
    ①在大型数据存储库中,自动地发现有用信息的过程
    ②从大型数据集中提取有趣的 (非平凡的, 蕴涵的, 先前未知的并且是潜在有用的) 信息或模式

    在这里插入图片描述
  • 数据挖掘是数据库中知识发现(KDD)不可缺少一部分
    KDD是将未加工的数据转换为有用信息的整个过程

    在这里插入图片描述
  • 引发数据挖掘的挑战:
    ①可伸缩 ②高维性 ③异种数据和复杂数据 ④数据的所有权与分布 ⑤非传统的分析

2)数据挖掘任务

  • 预测与描述
     预测(prediction):根据其他属性的值,预测特定属性的值
     描述(Description):导出概括数据中潜在联系的模式
  • 任务:
    在这里插入图片描述
    分类
    给定一批记录–训练集;    训练集的每一个样本都包含若干属性和一个类标号
    任务:建立一个模型 类标号属性是其他属性值的函数
    目标:预测新样本应被分为哪一类别 在检验集(test set)上测试模型的分类正确性
    训练样本:训练过程中所使用的,属性和类别都已知的数据对象      训练过程通过寻找其中的规律,得到一个目标函数或分类规则
    测试样本:测试过程中所使用的,属性值已知但类别未知的数据对象     测试过程是使用目标函数或分类规则,预测每个测试样本的类别

    在这里插入图片描述
    回归根据样本其他属性的取值预测指定属性的数值    如销售预测、股市指数的时序分析预测
    关联规则用来发现描述数据中强关联特征的模式    应用:电子商务、推荐
    聚类发现紧密相关的观测值组群(簇),使得与属于不从簇的观测值相比,属于同一簇的观测值相互之间尽可能相似
    在这里插入图片描述
    异常检测
    应用:信用卡欺诈检测、网络入侵检测
    任务:识别其特征显著不同于其他数据的观测值
               该观测值称为异常点或离群点;发现真正异常点,而避免错误地将正常的对象标注为异常点

章节小练

在这里插入图片描述
在这里插入图片描述

bingo~   ✨ 微笑三次抵过良药三千

发布了12 篇原创文章 · 获赞 2 · 访问量 1730
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 数字20 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览