OLTP与OLAP的区别
基本含义不同:OLTP是传统的关系型数据库的主要应用,主要是基本的,日常的事务处理,记录即时的增删改查,如银行交易;OLAP是数据仓库的核心部分,支持复杂的分析操作,侧重决策支持,并提供直观易懂的查询结果,典型应用:复杂的动态报表系统。
实时性要求不同:OLTP实时性要求高,OLTP 数据库旨在使事务应用程序仅写入所需的数据,以便尽快处理单个事务。OLAP的很多应用顶多是每天更新一下数据。
数据量不同:OLTP数据量不是很大,一般只读/写数十条记录,处理简单的事务。OLAP数据量大,因为OLAP支持的是动态查询,例如时间序列分析,所以处理的数据量很大。
用户和系统的面向性不同:OLTP是面向顾客,用于事务和查询处理。OLAP是面向市场,用于数据分析。
数据库设计不同:OLTP采用实体-联系ER模型和面向应用的数据库设计。OLAP采用星型或雪花模型和面向主题的数据库设计。
互联网大数据处理体系
四个层次:
数据获取层:获取数据的三个方法:网络爬虫、网络探针、ETL
大数据计算与存储层:这个层次上的计算指面向大数据分析的一些底层算法:排序、搜索、查找、最短路径、矩阵运算等。 MapReduce:一种实现任务分解、分布及结果规约的编程模型。基于磁盘进行计算结果的共享。
数据挖掘模型与算法层:这个层次主要对采集的数据进行处理。数据挖掘分析算法:数据聚类、分类、相关度计算、回归、预测等。
应用领域技术层:这个层次涉及与具体领域有关的技术:用户UI、系统管理、输出。主要部分:数据可视化,及其对其他三个从此上的关键参数配置调优。
网路爬虫、网络探针、ETL
网络爬虫:可以通过模拟用户的点击行为获取WEB页面内容
如果与网站服务商之间能达成数据协议,可以总是EXL直接从网站的数据库中获取数据,不需要经过WEB服务器框架
互联网上的数据类型很多,并不是所有数据类型都能通过模拟点击的行为过去,可以通过网络探针的方式在网络数据流层面上,进行数据还愿和获取。
爬虫技术的构成
1、爬虫要完成的功能分解为两个层次:
第一个层次:即爬虫的基本功能,获取页面所需的功能模块构成,通常包括:建立网络连接、页面请求和解析、链接相关性分析、爬行队列管理等。
第二个层次:针对各种复杂类型爬虫所需要做的扩展,如:URL范围控制、主题识别、支持增量式。
2、在爬虫技术原