基于
python
的聚焦网络爬虫数据采集系统设计与实现
杨国志
江业峰
【摘
要】
人类社会已经进入大数据时代了,随着互联网的迅猛发展,种类繁多,
数量庞大的数据随之产生,作为辅助人们检索信息工具的搜索引擎也存在着一
定的局限性,如:不同领域,背景的用户往往具有不同的检索目的和需求,通
用搜索引擎所返回的结果包含大量用户不关心的网页。
为了解决这个问题,网
络爬虫系统应运而生。众所周知,搜索引擎从互联网中靶向性筛选出有用信息,
而网络爬虫又是搜索引擎的基础构件之一。本文实现了一个基于
python
语言
的聚焦网络爬虫,利用关键字匹配技术对目标网站进行扫描,得到所需数据并
抓取。
【期刊名称】
黑龙江科技信息
【年
(
卷
),
期】
2018(000)027
【总页数】
2
【关键词】
搜索引擎网络爬虫;
python
;网页分析算法
1
概述
网络爬虫(
Crawler
)是搜索引擎(
search
engine
SE
)的基本构件之一,其
直接面向互联网底层,它是搜索引擎的数据发源地,决定着整个系统的内容是
否丰富、信息能否得到及时更新
[1]
。如果我们把互联网比作一张大网的话,那
么爬虫技术这网上的蜘蛛,将网络节点比作网页的话,这个“蜘蛛”爬到何处
就相当于访问了哪个网页,获得了相应的信息。而后我们可以顺着这些节点继
续爬到下一个节点,这样整个网的所有节点,所有信息便会被这个“小蜘蛛”
全部爬到。而搜索引擎就是将“小蜘蛛”所爬取的信息一定的策略在互联网中