数据挖掘复习(一)

第一章intro

  1. 为什么要使用数据挖掘?
    当前有大量的数据被收集并储存下来,数据中蕴涵着大量可以被挖掘出的知识用于服务客户。
  2. 数据挖掘是通过挖掘获得大量数据库中有用、有益、有价值并难以理解的pattern。
    在这里插入图片描述

Data Warehouses

A subject-oriented, integrated, cleaned collection of data in support of management’s decision making process

Application

  1. 社交媒体 2. 推荐系统 3. 医疗领域挖掘患者信息 4. 金融领域

第二章data warehouse

OLTP (on-line transaction processing)

主要任务面向于传统的数据库管理系统
每日的操作。读取写入…

OLAP (on-line analytical processing)

主要任务面向于data warehouse
数据分析以及决策指定

Distinct

OLPT-customer;OLAP-market
| OLPT | OLAP |
| customer| market |
| current, detailed | historical , consolidated|
| update | read-only but complex queries|
在这里插入图片描述

Schema

Star Schema

在这里插入图片描述

Snowflake Schema

在这里插入图片描述
snowflake schema较之star schema有了更详细的描写,属性之下还有属性

Data Cube Operation

Roll up

在某一维度上对measure进行求和

Drill down

Roll up的反向操作,把高纬度的求和数据返回为低纬度的求和数据或是详细数据。

Slice and dice

选择出其中一部分数据

图例

在这里插入图片描述

Exercise

这位师兄做了详细的作业讲解,感谢大佬分享。
https://blog.csdn.net/qq_45957458/article/details/127236288

Bitmap Index

在这里插入图片描述
将特征向量化,每一个样本的特征对应一个位图索引中的向量,根据向量来描述样本的特征。实际上是进行位运算,查询速度会大大加快

pro

  1. 通过索引映射到向量中,有效的减少了存储的空间。
  2. 通过位运算进行查询,相较于传统的查询方法有着很大的速度提高

cons

  1. 更新效率低下,由于位图索引是基于向量的,若要实现频繁的更新,则效率较低
  2. 面向高维的特征时,(类似于一个类别特征有很多个类别),位图索引可能会消耗更大的存储空间。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值