数据采集集成-网络数据采集（一）

最新推荐文章于 2024-04-11 09:06:32 发布

IMMOMMOI

最新推荐文章于 2024-04-11 09:06:32 发布

阅读量1.5k

点赞数 16

分类专栏：大数据采集文章标签：大数据

本文链接：https://blog.csdn.net/mmommo_/article/details/126491420

版权

大数据采集专栏收录该内容

4 篇文章 1 订阅

订阅专栏

（本次呢介绍一下网络数据采集的基础知识）（总结与分析在东软教育在线线上学习的学习心得。）如有错误，欢迎各位技术大牛斧正。

网络爬虫（Web Crawler），又被称为网络蜘蛛、网络蚂蚁、网络机器人等，是一种按照一定的规则自动爬取万维网信息的程序或者脚本。它们被广泛的用于互联网搜索引擎或者其他网站。可以自动采集所有其能够访问到的页面内容。以高效、准确、自动地获取这些网站的内容，还可以对采集到的数据进行后续的挖掘和分析。目前，网络爬虫的应用主要体现在以下几个方面：

1、数据采集

网络爬虫本质上是一段计算机程序或脚本，它按照一定的逻辑和算法规则，自动抓取和下载万维网的网页。eg：在一个固定周期内，搜索引擎从海量的互联网信息中进行爬取，抓取有效信息并实现收录。当用户在搜索引擎上检索对应关键词时，将对关键词进行分析处理，从收录的网页中找到相关网页，按照一定的排名规则进行排序，并将结果展现给用户。采用不同的算法，爬虫的运行效率也会不同，抓取的结果也会存在一些的差异。

我认为，在学习爬虫时，不仅要了解爬虫如何实现，还需要知道一些常见爬虫的算法。

2、Web挖掘

除了获取海量信息，实现数据存储之外。爬虫还经常应用于大数据分析或者数据挖掘中。Web挖掘是将传统的数据挖掘的思想和方法应用于Web当中，从Web资源和Web活动中爬取感兴趣的，潜在的，有用的模式和隐藏信息。挖掘出来的信息可以用于信息管理、决策支持、过程控制，还可以用于数据自身维护。在整个搜索与挖掘系统中，网络爬虫扮演着重要角色，它是网络的数据来源，决定着整个系统的内容，是否丰富，信息是否能够得到及时更新。目前主流的Web信息搜索的对象，仍然存在是大量存在的技术成熟的文本资源。我们把Web内容分析和Web链接分析结合起来，能够采集到包括：图像、声音、图片甚至视频片段等等多媒体信息资源在内的所有的Web数据。极大的提高了Web信息的挖掘质量，为整个搜索与挖掘系统，奠定坚实的基础。

3、舆情分析

网络舆情是当前网民们针对热点社会事件和社会政治经济状况等内容反应出的态度总和，可以说网络舆情就是当前社会现状的放大镜。网络爬虫的本质，是能够实现自动爬取的代码程序。当前网络舆情监测，使用的面向主题网络爬虫程序，可以通过网页分析算法，对非设定主题链接进行排除过滤，从而提高搜索的精确性。当前，网络舆情检测中面向主题爬虫技术的主要研究对象是行业领域的搜索策略问题。

4、离线浏览

离线浏览允许用户设置若干个网站，将页面从服务器中下载到用户的硬盘中，从而可以在不连接互联网的前提下进行Web浏览。实现这种功能的是离线浏览器，它们的核心技术就是爬虫技术。在执行时离线浏览器需要限定目标，也就是需要爬取的网站列表，从而避免爬虫无限制地下载到其他不相关的网站页面。

网络爬虫的基本原理

网络爬虫按照系统结构和实现技术，大致可以分为通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。实际的网络爬虫系统通常是几种爬虫技术相结合实现的。

1、通用网络爬虫

通用网络爬虫又称全网爬虫。通用网络爬虫爬取的目标资源在全互联网中。通用网络爬虫所爬取的目标数据是巨大的，并且爬行的范围也是非常大的，由于其爬取的数据是海量的数据，爬取的性能要求非常高。主要应用于大型搜索引擎中，有非常高的应用价值。

通用网络爬虫主要由初始URL集合、URL队列、网页爬行模块、页面分析模块、页面数据库、链接过滤模块等等构成。

2、聚焦网络爬虫

聚焦网络爬虫也叫主题网络爬虫。聚焦网络爬虫是按照预先定义好的主题有选择地进行爬取网页的一种爬虫，将目标定位在与主题相关的页面当中，这样可以大大节省爬取时所需的带宽资源和服务器资源。聚焦网络爬虫主要应用在对特定信息的爬取中，主要为某一类特定的人群提供服务。

聚焦网络爬虫主要由初始URL集合、URL队列、页面爬行模块、页面分析模块、页面数据库、链接过滤模块、内容评价模块、链接评价模块等构成。

3、增量式网络爬虫

对已下载网页采取增量式更新和只爬行新产生的或者发生变化的网页爬虫，能够在一定程度上保证所爬行的页面是尽可能新的页面。增量式网络爬虫的体系结构包含爬行模块、排序模块、更新模块、本地页面模块、待爬行URL集本地页面URL集。

和周期性和刷新页面的网络爬虫相比，增量式爬虫只会在需要时，爬行信产所或者发生更新的页面，并不重新下载没有发生变化的页面，可有效减少数据下载量，及时更新已爬行的网页。减少时间和空间上的耗费。但是增加了爬行算法的复杂度和实现难度。

增量式网络爬虫有两个目标，保持本地页面集中存储的页面为最新页面和提高本地页面集中页面的质量。

4、深层网络爬虫

深层网络爬虫可以爬取网站的深层页面。（深层页面：深层页面隐藏在表单之后，不能通过静态链接直接获取，是需要提交一定的关键词之后，才能够获取得到的页面。）在互联网中，深层页面的数量往往比表层页面的数量多，爬取深层页面，需要自动填写好对应的表单，因此深层网络爬虫最重要的部分就是表单的填写部分。深层网络爬虫主要由URL列表、LVS列表、爬行控制器、解析器、LVS控制器、表单分析器、表单处理器、响应分析器等构成。