python数据收集系统_基于python的聚焦网络爬虫数据采集系统设计与实现

weixin_39634480

于 2020-12-16 03:57:48 发布

阅读量446

点赞数

文章标签： python数据收集系统

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39634480/article/details/111437358

版权

基于

python

的聚焦网络爬虫数据采集系统设计与实现

杨国志

江业峰

【摘

要】

人类社会已经进入大数据时代了，随着互联网的迅猛发展，种类繁多，

数量庞大的数据随之产生，作为辅助人们检索信息工具的搜索引擎也存在着一

定的局限性，如：不同领域，背景的用户往往具有不同的检索目的和需求，通

用搜索引擎所返回的结果包含大量用户不关心的网页。

为了解决这个问题，网

络爬虫系统应运而生。众所周知，搜索引擎从互联网中靶向性筛选出有用信息，

而网络爬虫又是搜索引擎的基础构件之一。本文实现了一个基于

python

语言

的聚焦网络爬虫，利用关键字匹配技术对目标网站进行扫描，得到所需数据并

抓取。

【期刊名称】

黑龙江科技信息

【年

(

卷

),

期】

2018(000)027

【总页数】

2

【关键词】

搜索引擎网络爬虫；

python

；网页分析算法

1

概述

网络爬虫(

Crawler

)是搜索引擎(

search

engine

SE

)的基本构件之一，其

直接面向互联网底层，它是搜索引擎的数据发源地，决定着整个系统的内容是

否丰富、信息能否得到及时更新

[1]

。如果我们把互联网比作一张大网的话，那

么爬虫技术这网上的蜘蛛，将网络节点比作网页的话，这个“蜘蛛”爬到何处

就相当于访问了哪个网页，获得了相应的信息。而后我们可以顺着这些节点继

续爬到下一个节点，这样整个网的所有节点，所有信息便会被这个“小蜘蛛”

全部爬到。而搜索引擎就是将“小蜘蛛”所爬取的信息一定的策略在互联网中

weixin_39634480

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python数据收集系统_基于python的聚焦网络爬虫数据采集系统设计与实现

基于python的聚焦网络爬虫数据采集系统设计与实现杨国志江业峰【摘要】人类社会已经进入大数据时代了，随着互联网的迅猛发展，种类繁多，数量庞大的数据随之产生，作为辅助人们检索信息工具的搜索引擎也存在着一定的局限性，如：不同领域，背景的用户往往具有不同的检索目的和需求，通用搜索引擎所返回的结果包含大量用户不关心的网页。为了解决这个问题，网络爬虫系统应运而生。众所周知，搜索引擎从互联网中靶向性筛选出有...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。