国科大刘莹老师数据挖掘整理

文章中的思维导图请到我上传的文件中下载,链接失效可以私聊我

https://download.csdn.net/download/qq_34767784/14075661

Intro

​ 本节主要是课程的介绍,主要信息包括刘莹老师的介绍,参考书籍的介绍,注意本课程将大部分纯英文授课哈,虽然有些不习惯,但是这么好的学习英语的机会,当然是求之不得。
在这里插入图片描述

​ 该课程评价指标主要有3个:3次作业(个人),一次课程大作业(组队),以及最终的考试(闭卷)

本课程一直按照下图所示脉络进行讲解,因为其符合数据挖掘的实际流程:
在这里插入图片描述

Data_Warehouse

在这里插入图片描述

​ 先从底层数据存储讲起,重点在于数据的存储组织形式,在概念层次是数据立方体,在逻辑层次主要有Star schema、Snowflake schema、Fact constellations三种,然后是一些对数据仓库的DMQL语言中的OLAP操作,也是比较重要的,它类似于MySQL的SQL语言。

Preprocessing

在这里插入图片描述

​ 获取数据,并将其存储好之后,就应该对其进行一系列预处理操作,主要有需要进行数据预处理的原因,描述性数据摘要(包括平均数、中位数、五点以及作图),数据清洗、数据转换、数据合并、数据压缩

classification

​ 预处理之后就可以通过各种算法对处理后的数据进行处理分析了

在这里插入图片描述

​ 分类与预测是数据挖掘最为经典的任务之一,本节主要讲了决策树算法、贝叶斯算法、BP网络以及其它分类算法;至于预测算法,主要讲了线性回归、非线性回归等

Clustering

​ 除了分类,聚类也是一种十分重要的数据挖掘算法
在这里插入图片描述

​ 聚类是无监督学习,它希望将数据归为几类,使得类间距离较远,类内点的距离较近;

聚类的重点在于数据的类型与对应的算法;数据可以分为Interval-valued Variables、Binary Variables、Nominal Variables、Ordinal Variables、Ratio-Scaled Variables、Variables of Mixed Types等;主要介绍的聚类算法可以分为下面几个类别:Partitioning approach、Hierarchical approach、Density-based approach、Grid-based approach、Probabilistic Model-based approach;后面还有一个异常点检测的知识点,类似于聚类算法的一个应用

Mining Association Rules in Large Databases

​ 然后在前面所学的基础上,我们终于可以挖掘数据内蕴含的内在联系了,即关联规则;

主要的方法有Aprior、Partition、DHP、DIC、FP-Growth(FP-tree),详情见课件

  • 4
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

李霁明

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值