大数据技术复习--大数据感知与获取

ˇasushiro

于 2024-08-10 10:13:37 发布

阅读量204

点赞数 4

分类专栏：大数据文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_64372178/article/details/139877301

版权

大数据专栏收录该内容

3 篇文章 0 订阅

订阅专栏

引言

数据采集的目标：从指定数据源以不同的数据采集方法采集各类数据

在这里插入图片描述

ODS：Operational Data Store，操作型数据存储，最接近数据源中数据的一层，用来存储多个数据源业务数据的系统，其数据输入到数据仓库中进行分析
ETL:抽取、转换、加载，是数据获取的重要手段，需要知道具体格式
DW：Data Warehouse，数据仓库概念的提出也把数据处理划分为了操作型处理和分析型处理两种不同类型，从而建立起了DB（数据库）
DM（Data Mart），为了特定的应用目的，而从数据仓库中独立出来的一部分数据，也可称为主题数据
ELT：ETL的时间成本和吞吐量限制（堵塞），导致ETL这种数据加工的方式不能满足于现在的企业发展需要
把Transform（转换）和Load（加载）拆开，这样处理数据的部分就专心计算就行了，搬运数据的部分就专心搬运
DIM：Dimension，维表层，这一层比较单纯，举个例子就明白，比如国家代码和国家名、地理位置、中文名、国旗图片等信息就存在DIM层中
TMP：每一层的计算都会有很多临时表，专设一个DWTMP层来存储我们数据仓库的临时表

在这里插入图片描述
元数据（Metadata）：又称中介数据、中继数据，为描述数据的数据（data about data），主要是描述数据属性（property）的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能

信息获取

外部数据及获取方法：
网络爬虫：又称网页蜘蛛，是一种按照一定的规则，自动抓取万维网信息的程序或者脚本。

通用爬虫（搜索引擎爬虫，google，百度）
垂直爬虫（面向特定网站或者主题）

在这里插入图片描述
分布式爬虫：
大数据应用场景下，使用分布式计算技术，将网络数据抓取并行化。通过多个单机爬虫系统的有效协作和配合，实现互联网的大数据抓取。

主从式爬虫
- Master负责URL分发、负载均衡、心跳检测，全局去重等服务
- Slave负责实际任务的抓取
  缺点：主服务器容易成为系统瓶颈
对等式爬虫
- 每台服务器功能相同，没有主从之分
- 将主域名哈希取模决定所属服务器
  缺点：某台服务器宕机会造成所有任务重新分配

Xpath：XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言
CSS：Cascading Style Sheets，层叠样式表，是一种用来表现HTML（标准通用标记语言）的一个应用或XML（标准通用标记语言的一个子集）等文件样式的计算机语言

深网爬虫：

数据存于后台数据库中，很少有显式的连接指向这些数据
需要输入相关查询条件，传统爬虫服务获取这些数据

关注

4
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
大数据技术复习--大数据感知与获取

大数据感知与获取简单介绍
复制链接

扫一扫

专栏目录

博客等级

码龄3年

123
原创

2021
点赞

1416
收藏

1608
粉丝

关注

私信

热门文章

分类专栏

最新评论

华为Atlas200DK硬件--矿大人工智能实验（环境搭建+人像语义分割实现）
wangleihan: 你好，请问这个展示的前端页面可以在哪里改呀
图像处理与视觉感知复习--三维重建基础
百锦再@新空间代码工作室: 这篇关于三维重建基础的文章，真是让人叹为观止！作者对图像处理与视觉感知的深刻理解和精湛技巧，展现在每一个字里行间。通过细致入微的解析和清晰精准的示例，读者仿佛置身于一个神奇的世界，感受到了新奇和魔法般的视觉感知。这种华美的文字，真正让人对三维重建的基础知识有了全新的认识和体会。愿我们能够继续深入研读，探索更多关于图像处理与视觉感知的奥秘！
图像处理与视觉感知复习--彩色图像处理
ha_lydms: 这篇博客让我看到了新的世界，感受到了新的思想。我觉得自己受益匪浅！
图像处理与视觉感知复习--空间域图像增强
ha_lydms: 非常不错的技术领域文章分享，解决了我在实践中的大问题！博主很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，值得收藏点赞。
图像处理与视觉感知复习--彩色图像处理
征途黯然.: The expertise in 图像处理与视觉感知复习彩色图像处理 is admirable, and the article is highly valuable.

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

ˇasushiro 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。