【笔记】高级数据库-复习笔记(3)数据挖掘和信息检索

一、OLAP

OLTP & OLAP

  • On-Line Transaction Processing (OLTP)  联机事务处理
    • Systems manipulate operational data, necessary for day-to-day operations.
    • 大多数现存的数据库系统属于这一类别
  • On-Line Analytical Processing (OLAP)  联机分析技术
    • Systems support specific types of queries (based on group-bys and aggregation operators) useful for decision making.
    • Interactive analysis of data, allowing data to be summarized and viewed in different ways in an online fashion (with negligible delay).

为什么OLTP不适合用来做决策?

  • 需要在数据库本身不断更新数据的同时,在每次query中做大量的join运算。
  • 无法同时对不同RDBMS存储、不同OLTP data models进行操作。

OLTP vs OLAP

 

二、Data Warehouse 数据仓库

数据仓库是将多个信息源的信息,按统一的模式存在单个站点上。

优点:

  • 极大简化了查询,允许针对历史数据的查询和研究。
  • 将为了支持决策而进行的query开销从事务处理系统转移走了。

多级结构:

 

三、Data Mining 数据挖掘

数据挖掘研究的问题:

  • Association 关联
  • Classification 分类
  • Clustering 聚类
  • Sequence analysis 序列分析
  • Deviations 偏差(异常值检测)
  • Text/multimedia mining 文本/多媒体挖掘

 

The Apriori Algorithm 关联规则挖掘算法

资料:https://www.cnblogs.com/llhthinker/p/6719779.html

补充:

  • 【频繁项集】经常出现在一起的人事物的集合。
  • 【关联规则】暗示两种人事物之间可能存在很强的关系。
  • 【频繁项集的所有非空子集也一定是频繁的】类似的,非频繁项集的所有超集也一定是非频繁项集,即如果{A}在数据库的记录中是不频繁的,那么{A, B}在数据库的记录中也一定是不频繁的。
  • 【支持度】链接里描述时用了概率表示,更直观的可以理解为比例。数据集中包含该项集的记录占数据库所有记录的比例。

 

四、Information Retrieval 信息检索

  • Relevance Ranking Using Terms 基于术语的相关性排序
  • Relevance Using Hyperlinks 基于超链接的相关性衡量
  • Synonyms, Homonyms, and Ontologies 同义词
  • Indexing of Documents 文档索引
  • Measuring Retrieval Effectiveness 检索效率测量
  • Web Search Engines 网络搜索引擎
  • Information Retrieval and Structured Data 信息检索和结构化数据
  • Directories 目录
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值