大数据_数据采集分析01

最新推荐文章于 2024-06-03 15:05:27 发布

何月无夜

最新推荐文章于 2024-06-03 15:05:27 发布

阅读量834

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/quezhengbo/article/details/46501325

版权

大数据专栏收录该内容

8 篇文章 0 订阅

订阅专栏

在互联网时代，无论我们做什么，无时无刻，都在主动或被动地接收来自不同的数据与信息。不管这些数据与信息是真实的或伪造的。很多时候，我们在数据收集的过程中，使用的方法是很笨拙的，如找几个网站，或用百度等搜索工具。不论是速度或有效性上，还是其它方便，都显得很不高效。在网络上，有大量海量的数据，如果用程序或其它方法去自动快速去搜集，后加以分析，从中选择，过滤等处理，找到我们想要的，那这样就很棒了！！从现在开始，学习一些网络数据采集的方法，不管是编程、工具还是软件，记下，总是有用的！

“数据”将成为一种不可替代的，具有潜在价植的东西。会有公司聘请“数据挖掘工人”或找工程师编写软件，专门在网上像采矿一样每天实时的大量的从互联网找“数据”，然后对这些“数据”进行各种处理，生成有价值的参考资料，或出售或自用！

1. 网络爬虫

网络爬虫（网页蜘蛛，网络机器人，网页追逐者，蚂蚁，自动索引，模拟程序，蠕虫），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。

1.1 产生背景

万维网成为大量信息的载体(文字、图片、数据库、音频、视频多媒体等)，如何有效地提取并利用这些信息成为一个巨大的挑战。通用性搜索引擎(Baidu和Google等)存在局限性，如：返回的结果包含大量用户不关心的网页、多提供基于关键字的检索，难以支持根据语义信息提出的查询等。

聚焦爬虫(另有通用爬虫)是一个自动下载网页的程序，它根据既定的抓取目标，有选择的访问万维网上的网页与相关的链接，获取所需要的信息

1.2 组成

在网络爬虫的系统框架中，主过程由控制器，解析器，资源库三部分组成。
控制器的主要工作是负责给多线程中的各个爬虫线程分配工作任务。
解析器的主要工作是下载网页，进行页面的处理，主要是将一些JS脚本标签、CSS代码内容、空格字符、HTML标签等内容处理掉，爬虫的基本工作是由解析器完成。
资源库是用来存放下载到的网页资源，一般都采用大型的数据库存储，如Oracle数据库，并对其建立索引。

1.2.1 控制器
控制器是网络爬虫的中央控制器，它主要是负责根据系统传过来的URL链接，分配一线程，然后启动线程调用爬虫爬取网页的过程。
1.2.2 解析器
解析器是负责网络爬虫的主要部分，其负责的工作主要有：下载网页的功能，对网页的文本进行处理，如过滤功能，抽取特殊HTML标签的功能，分析数据功能。
1.2.3 资源库
主要是用来存储网页中下载下来的数据记录的容器，并提供生成索引的目标源。中大型的数据库产品有：Oracle、Sql Server等。

2. 网络爬虫开源软件(开源中国)