大数据技术复习--大数据感知与获取

引言

数据采集的目标:从指定数据源以不同的数据采集方法采集各类数据

在这里插入图片描述

  • ODS:Operational Data Store,操作型数据存储,最接近数据源中数据的一层,用来存储多个数据源业务数据的系统,其数据输入到数据仓库中进行分析

  • ETL:抽取、转换、加载,是数据获取的重要手段,需要知道具体格式

  • DW:Data Warehouse,数据仓库概念的提出也把数据处理划分为了操作型处理和分析型处理两种不同类型,从而建立起了DB(数据库)

  • DM(Data Mart),为了特定的应用目的,而从数据仓库中独立出来的一部分数据,也可称为主题数据

  • ELT:ETL的时间成本和吞吐量限制(堵塞),导致ETL这种数据加工的方式不能满足于现在的企业发展需要
    把Transform(转换)和Load(加载)拆开,这样处理数据的部分就专心计算就行了,搬运数据的部分就专心搬运

  • DIM:Dimension,维表层,这一层比较单纯,举个例子就明白,比如国家代码和国家名、地理位置、中文名、国旗图片等信息就存在DIM层中

  • TMP:每一层的计算都会有很多临时表,专设一个DWTMP层来存储我们数据仓库的临时表

在这里插入图片描述
元数据(Metadata):又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能

信息获取

外部数据及获取方法:
网络爬虫:又称网页蜘蛛,是一种按照一定的规则,自动抓取万维网信息的程序或者脚本。

  • 通用爬虫(搜索引擎爬虫,google,百度)
  • 垂直爬虫(面向特定网站或者主题)

在这里插入图片描述
分布式爬虫:
大数据应用场景下,使用分布式计算技术,将网络数据抓取并行化。通过多个单机爬虫系统的有效协作和配合,实现互联网的大数据抓取。

  • 主从式爬虫
    • Master负责URL分发、负载均衡、心跳检测,全局去重等服务
    • Slave负责实际任务的抓取
      缺点:主服务器容易成为系统瓶颈
  • 对等式爬虫
    • 每台服务器功能相同,没有主从之分
    • 将主域名哈希取模决定所属服务器
      缺点:某台服务器宕机会造成所有任务重新分配

Xpath:XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言
CSS:Cascading Style Sheets,层叠样式表,是一种用来表现HTML(标准通用标记语言)的一个应用或XML(标准通用标记语言的一个子集)等文件样式的计算机语言

深网爬虫:

  • 数据存于后台数据库中,很少有显式的连接指向这些数据
  • 需要输入相关查询条件,传统爬虫服务获取这些数据
  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ˇasushiro

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值