互联网大数据学习笔记

OLTP与OLAP的区别

基本含义不同:OLTP是传统的关系型数据库的主要应用,主要是基本的,日常的事务处理,记录即时的增删改查,如银行交易;OLAP是数据仓库的核心部分,支持复杂的分析操作,侧重决策支持,并提供直观易懂的查询结果,典型应用:复杂的动态报表系统。

实时性要求不同:OLTP实时性要求高,OLTP 数据库旨在使事务应用程序仅写入所需的数据,以便尽快处理单个事务。OLAP的很多应用顶多是每天更新一下数据。

数据量不同:OLTP数据量不是很大,一般只读/写数十条记录,处理简单的事务。OLAP数据量大,因为OLAP支持的是动态查询,例如时间序列分析,所以处理的数据量很大。

用户和系统的面向性不同:OLTP是面向顾客,用于事务和查询处理。OLAP是面向市场,用于数据分析。

数据库设计不同:OLTP采用实体-联系ER模型和面向应用的数据库设计。OLAP采用星型或雪花模型和面向主题的数据库设计。

 

 

 

互联网大数据处理体系

四个层次:

数据获取层:获取数据的三个方法:网络爬虫、网络探针、ETL

大数据计算与存储层:这个层次上的计算指面向大数据分析的一些底层算法:排序、搜索、查找、最短路径、矩阵运算等。  MapReduce:一种实现任务分解、分布及结果规约的编程模型。基于磁盘进行计算结果的共享。

数据挖掘模型与算法层:这个层次主要对采集的数据进行处理。数据挖掘分析算法:数据聚类、分类、相关度计算、回归、预测等。

应用领域技术层:这个层次涉及与具体领域有关的技术:用户UI、系统管理、输出。主要部分:数据可视化,及其对其他三个从此上的关键参数配置调优。

 

 

网路爬虫、网络探针、ETL

网络爬虫:可以通过模拟用户的点击行为获取WEB页面内容

如果与网站服务商之间能达成数据协议,可以总是EXL直接从网站的数据库中获取数据,不需要经过WEB服务器框架

互联网上的数据类型很多,并不是所有数据类型都能通过模拟点击的行为过去,可以通过网络探针的方式在网络数据流层面上,进行数据还愿和获取。

 

 

爬虫技术的构成

1、爬虫要完成的功能分解为两个层次:

第一个层次:即爬虫的基本功能,获取页面所需的功能模块构成,通常包括:建立网络连接、页面请求和解析、链接相关性分析、爬行队列管理等。

第二个层次:针对各种复杂类型爬虫所需要做的扩展,如:URL范围控制、主题识别、支持增量式。

2、在爬虫技术原

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值