python数据采集系统_基于python的聚焦网络爬虫数据采集系统设计与实现

本文介绍了一种基于Python实现的聚焦网络爬虫系统,该系统利用关键字匹配技术对目标网站进行定向数据采集,以解决通用搜索引擎返回结果与用户需求不符的问题。系统设计关注于提高信息检索的针对性和效率,适用于特定领域的信息获取。
摘要由CSDN通过智能技术生成

基于

python

的聚焦网络爬虫数据采集系统设计与实现

杨国志

;

江业峰

【期刊名称】

《科学技术创新》

【年

(

),

期】

2018(000)027

【摘要】

人类社会已经进入大数据时代了

,

随着互联网的迅猛发展

,

种类繁多

,

量庞大的数据随之产生

,

作为辅助人们检索信息工具的搜索引擎也存在着一定的

局限性

,

如:不同领域

,

背景的用户往往具有不同的检索目的和需求

,

通用搜索引

擎所返回的结果包含大量用户不关心的网页。为了解决这个问题

,

网络爬虫系统

应运而生。众所周知

,

搜索引擎从互联网中靶向性筛选出有用信息

,

而网络爬虫又

是搜索引擎的基础构件之一。本文实现了一个基于

python

语言的聚焦网络爬

,

利用关键字匹配技术对目标网站进行扫描

,

得到所需数据并抓取。

【总页数】

2

(P

.73-74)

【关键词】

搜索引擎网络爬虫

; python;

网页分析算法

【作者】

杨国志

;

江业峰

【作者单位】

辽宁科技大学

辽宁鞍山

114000

【正文语种】

中文

【中图分类】

TP393

【相关文献】

1.

基于

python

的聚焦网络爬虫数据采集系统设计与实现

[J],

杨国志

;

江业峰

2.

基于网络爬虫技术的舆情数据采集系统设计与实现

[J],

张明杰

3.

基于多线程和翻译的网络爬虫鸟类音频数据采集系统设计与实现

[J],

刘江

;

国玺

;

张雁

;

吕丹桔

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值