大数据_数据采集分析01

在互联网时代,无论我们做什么,无时无刻,都在主动或被动地接收来自不同的数据与信息。不管这些数据与信息是真实的或伪造的。很多时候,我们在数据收集的过程中,使用的方法是很笨拙的,如找几个网站,或用百度等搜索工具。不论是速度或有效性上,还是其它方便,都显得很不高效。在网络上,有大量海量的数据,如果用程序或其它方法去自动快速去搜集,后加以分析,从中选择,过滤等处理,找到我们想要的,那这样就很棒了!!从现在开始,学习一些网络数据采集的方法,不管是编程、工具还是软件,记下,总是有用的!

“数据”将成为一种不可替代的,具有潜在价植的东西。会有公司聘请“数据挖掘工人”或找工程师编写软件,专门在网上像采矿一样每天实时的大量的从互联网找“数据”,然后对这些“数据”进行各种处理,生成有价值的参考资料,或出售或自用!


1.  网络爬虫

网络爬虫(网页蜘蛛,网络机器人,网页追逐者,蚂蚁,自动索引,模拟程序,蠕虫),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。

1.1 产生背景

万维网成为大量信息的载体(文字、图片、数据库、音频、视频多媒体等),如何有效地提取并利用这些信息成为一个巨大的挑战。通用性搜索引擎(Baidu和Google等)存在局限性,如:返回的结果包含大量用户不关心的网页、多提供基于关键字的检索,难以支持根据语义信息提出的查询等。

聚焦爬虫(另有通用爬虫)是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息

1.2 组成

在网络爬虫的系统框架中,主过程由控制器,解析器,资源库三部分组成。
控制器的主要工作是负责给多线程中的各个爬虫线程分配工作任务。
解析器的主要工作是下载网页,进行页面的处理,主要是将一些JS脚本标签、CSS代码内容、空格字符、HTML标签等内容处理掉,爬虫的基本工作是由解析器完成。
资源库是用来存放下载到的网页资源,一般都采用大型的数据库存储,如Oracle数据库,并对其建立索引。

1.2.1 控制器
控制器是网络爬虫的中央控制器,它主要是负责根据系统传过来的URL链接,分配一线程,然后启动线程调用爬虫爬取网页的过程。
1.2.2 解析器
解析器是负责网络爬虫的主要部分,其负责的工作主要有:下载网页的功能,对网页的文本进行处理,如过滤功能,抽取特殊HTML标签的功能,分析数据功能。
1.2.3 资源库
主要是用来存储网页中下载下来的数据记录的容器,并提供生成索引的目标源。中大型的数据库产品有:Oracle、Sql Server等。


2. 网络爬虫开源软件(开源中国)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值