python数据收集系统_基于python的聚焦网络爬虫数据采集系统设计与实现

基于

python

的聚焦网络爬虫数据采集系统设计与实现

杨国志

江业峰

【摘

要】

人类社会已经进入大数据时代了,随着互联网的迅猛发展,种类繁多,

数量庞大的数据随之产生,作为辅助人们检索信息工具的搜索引擎也存在着一

定的局限性,如:不同领域,背景的用户往往具有不同的检索目的和需求,通

用搜索引擎所返回的结果包含大量用户不关心的网页。

为了解决这个问题,网

络爬虫系统应运而生。众所周知,搜索引擎从互联网中靶向性筛选出有用信息,

而网络爬虫又是搜索引擎的基础构件之一。本文实现了一个基于

python

语言

的聚焦网络爬虫,利用关键字匹配技术对目标网站进行扫描,得到所需数据并

抓取。

【期刊名称】

黑龙江科技信息

【年

(

),

期】

2018(000)027

【总页数】

2

【关键词】

搜索引擎网络爬虫;

python

;网页分析算法

1

概述

网络爬虫(

Crawler

)是搜索引擎(

search

engine

SE

)的基本构件之一,其

直接面向互联网底层,它是搜索引擎的数据发源地,决定着整个系统的内容是

否丰富、信息能否得到及时更新

[1]

。如果我们把互联网比作一张大网的话,那

么爬虫技术这网上的蜘蛛,将网络节点比作网页的话,这个“蜘蛛”爬到何处

就相当于访问了哪个网页,获得了相应的信息。而后我们可以顺着这些节点继

续爬到下一个节点,这样整个网的所有节点,所有信息便会被这个“小蜘蛛”

全部爬到。而搜索引擎就是将“小蜘蛛”所爬取的信息一定的策略在互联网中

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值