第二章数据获取

程序小猴_

已于 2023-11-12 11:30:39 修改

阅读量69

点赞数 1

分类专栏：大数据技术导论学习笔记文章标签：大数据

于 2023-11-08 20:04:41 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2201_75466929/article/details/134294226

版权

大数据技术导论学习笔记专栏收录该内容

6 篇文章 1 订阅

订阅专栏

本文探讨了组织内外数据获取的不同途径，包括内部数据的ETL过程，如全量和增量抽取方法，以及数据转换和装载。同时，详细介绍了外部数据获取，如网络爬虫的类型、抓取策略和分布式架构，特别关注深网数据的定义和获取挑战。

摘要由CSDN通过智能技术生成

1 数据来源

组织内业务系统和归档数据
组织外政府数据，其他组织数据，互联网数据，物联网数据

2 内部数据获取

2.1 用到的工具

ETL（Extract,Transform,Load）

数据抽取，数据转换和加工，数据装载

2.2 数据抽取分类

全量抽取直观简单，产生大量冗余数据，降低抽取效率。对文件的抽取一般采用。
增量抽取

2.3 捕获增量数据的方法

日志对比 CDC（changed data capture），利用CDC，在对源表进行插入更新删除操作时就可以提取数据，变化的数据保存在DB的变化表中。
时间戳 ①增加一个时间戳字段，在更新表格数据的同时更新时间戳字段的值。②进行数据抽取时，比较系统时间与时间戳字段的值来决定抽取哪些数据。
触发器 ①当源表数据变化时，通过相应触发器将变化的数据写入临时表。②抽取线程从临时表抽取数据。 ③被抽去的数据从临时表删除或者标记。
全表对比采用MD5校验码 ①首先为要抽取数据的表建立一个结构类似的MD5的临时表，该临时表记录源表主键及根据所有字段的数据计算出的MD5校验码。②每次要进行数据抽取时，将源表和MD5临时表对比，从而决定源表数据的变化，并更新MD5检验码。缺点：被动进行全表对比，当表中没有主键或者唯一列，或者记录重复数据时，MD5的准切性较差。

2.4 T 对数据的转换和加工

映射，过滤，清洗，替换，计算，验证，加密和解密，合并，拆分

2.5 L 数据装载

SQL语句加载
批量加载工具
API

3 外部数据获取

3.1 网络爬虫

一种自动浏览网页的程序或者说网络机器人

开始于种子URL，放入待抓取URL队列
读取队列中URL，进行DNS解析，网页下载，保存到已下载网页库中
从读取的URL中抽取新的URL加入到队列，将已读取的URL放入已抓取URL队列中
继续重复2和3，直到待抓取URL队列中为空

3.2 三种典型网络爬虫

批量型爬虫
增量型爬虫持续
垂直型爬虫指定网络数据

3.3 网络爬虫抓取策略

深度优先
广度优先
局部PageRank策略计算网页被其他网页链接指向的数量来表示重要性
OPIC(online page importance computation) 将每个网页赋予相同的“金币”，下载时将金币平均分配到该网页包含的链接中，待爬队列中链接按照“金币”排序。计算速度快于3

3.4 爬虫分布式架构模型

Master-Slave
Slave-Slave
Mixed

4 深网数据获取

4.1 深网定义

在互联网上可获得的，但是传统的搜索引擎由于技术限制不能或者慎重考虑后不愿意做索引的那些网页、文件或者其他高质量、权威的信息。

4.2 深网内容

没有被搜索引擎索引的页面
非网页文件
查询得到的动态页面
注册或其他限制

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
第二章数据获取

在互联网上可获得的，但是传统的搜索引擎由于技术限制不能或者慎重考虑后不愿意做索引的那些网页、文件或者其他高质量、权威的信息。
复制链接

扫一扫

专栏目录

程序小猴_ CSDN认证博客专家 CSDN认证企业博客

码龄2年

6: 原创

158万+: 周排名

30万+: 总排名

441: 访问

: 等级

86: 积分

4: 粉丝

6: 获赞

4: 评论

0: 收藏

私信

关注

热门文章

分类专栏

最新评论

第六章大数据隐私：匿名数据技术
CSDN-Ada助手: 恭喜博主撰写了第六篇博客，标题为“大数据隐私：匿名数据技术”。这篇博客的内容非常有意义，探讨了大数据隐私保护中的匿名数据技术。我对你持续创作的热情深感钦佩。在下一步的创作中，或许可以进一步探索匿名数据技术的实际应用案例，以及对隐私保护的影响。期待你的下一篇博客！
第一章引论
解: 找虫：第三大点“科学研究第四范式” 第是不是改成的
第二章数据获取
CSDN-Ada助手: 非常棒的博客！你在这篇博文中详细介绍了数据获取的重要性。我鼓励你继续创作，因为你的文章能够帮助读者更好地理解这个主题。除了你在标题和摘要中提到的内容，还有一些与数据获取相关的知识和技能可以进一步拓展。例如，你可以探讨数据爬取的技术和工具，如网络爬虫和数据挖掘算法。此外，你还可以介绍如何处理大规模数据集，包括数据清洗、数据存储和数据分析等方面的技巧。希望你在未来的博文中能够扩展这些知识，并且将它们与数据获取的重要性结合起来。再次感谢你的分享，期待看到更多精彩的内容！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。