一、OLAP
OLTP & OLAP
- On-Line Transaction Processing (OLTP) 联机事务处理
- Systems manipulate operational data, necessary for day-to-day operations.
- 大多数现存的数据库系统属于这一类别
- On-Line Analytical Processing (OLAP) 联机分析技术
- Systems support specific types of queries (based on group-bys and aggregation operators) useful for decision making.
-
Interactive analysis of data, allowing data to be summarized and viewed in different ways in an online fashion (with negligible delay).
为什么OLTP不适合用来做决策?
- 需要在数据库本身不断更新数据的同时,在每次query中做大量的join运算。
- 无法同时对不同RDBMS存储、不同OLTP data models进行操作。
OLTP vs OLAP
二、Data Warehouse 数据仓库
数据仓库是将多个信息源的信息,按统一的模式存在单个站点上。
优点:
- 极大简化了查询,允许针对历史数据的查询和研究。
- 将为了支持决策而进行的query开销从事务处理系统转移走了。
多级结构:
三、Data Mining 数据挖掘
数据挖掘研究的问题:
- Association 关联
- Classification 分类
- Clustering 聚类
- Sequence analysis 序列分析
- Deviations 偏差(异常值检测)
- Text/multimedia mining 文本/多媒体挖掘
The Apriori Algorithm 关联规则挖掘算法
资料:https://www.cnblogs.com/llhthinker/p/6719779.html
补充:
- 【频繁项集】经常出现在一起的人事物的集合。
- 【关联规则】暗示两种人事物之间可能存在很强的关系。
- 【频繁项集的所有非空子集也一定是频繁的】类似的,非频繁项集的所有超集也一定是非频繁项集,即如果{A}在数据库的记录中是不频繁的,那么{A, B}在数据库的记录中也一定是不频繁的。
- 【支持度】链接里描述时用了概率表示,更直观的可以理解为比例。数据集中包含该项集的记录占数据库所有记录的比例。
四、Information Retrieval 信息检索
- Relevance Ranking Using Terms 基于术语的相关性排序
- Relevance Using Hyperlinks 基于超链接的相关性衡量
- Synonyms, Homonyms, and Ontologies 同义词
- Indexing of Documents 文档索引
- Measuring Retrieval Effectiveness 检索效率测量
- Web Search Engines 网络搜索引擎
- Information Retrieval and Structured Data 信息检索和结构化数据
- Directories 目录