数据挖掘笔记(1)——数据库与数据仓库,挖掘模式

什么是数据库,什么是数据仓库?二者的区别是什么?

  • Differences between a data warehouse and a database:

     A data warehouse is a repository of informa-ion collected from multiple sources, over a history of time, stored under a unified schema, and used for data analysis and decision support; whereas a database, is a collection of interrelated data that represents the current status of the stored data. There could be multiple heterogeneous databases wherethe schema of one database may not agree with the schema of another.

     A database system supportsad-hoc query and on-line transaction processing. Additional differences are detailed in Section 3.1.1Differences between Operational Databases Systems and Data Warehouses.

  • Similarities between a data warehouse and a database: Both are repositories of information, storing huge amounts of persistent data. 

    个人理解数据仓库就是以数据库为基础所建立,存储形式仍是数据库。每个元素都是较高的抽象层次,同时又能下钻(drill-down)。外部描述每个数据元素的维度有多个汇总级别。

    所谓olap(online analytical processing:联机分析处理)与oltp(online transaction processing:联机事务处理)的区别从基于数据仓库与基于数据库的不同上就容易看出来。由于数据仓库提供丰富的分析角度,必然利于分析决策。数据仓库由于维度低、细化、必然利于具体事物处理。


可以挖掘什么样的模式?

包括特征化characterization、区分discrimination、频繁模式frequent pattern、聚类clustering、分类classification、回归regression等

特征化:获得具有某一类或多类特征的集合。例如select语句

区分:比较不同特征的集合

频繁模式:在数据中频繁出现的模式

分类:找出用于描述和区分数据类或概念的模型的过程,以便于使用模型将未属于任何一类的归到某一类中。类的区分即分类。与discrimination的区别在于,classification侧重于classify,即为未分类的数据标类,discrimination则为了discriminate,比较两种特征聚合区别。分类是没类找类,区分是有类比较不同。

聚类:没有标签,分析内部相似性。



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值