基于
python
的聚焦网络爬虫数据采集系统设计与实现
杨国志
;
江业峰
【期刊名称】
《
《科学技术创新》
》
【年
(
卷
),
期】
2018(000)027
【摘要】
人类社会已经进入大数据时代了
,
随着互联网的迅猛发展
,
种类繁多
,
数
量庞大的数据随之产生
,
作为辅助人们检索信息工具的搜索引擎也存在着一定的
局限性
,
如:不同领域
,
背景的用户往往具有不同的检索目的和需求
,
通用搜索引
擎所返回的结果包含大量用户不关心的网页。为了解决这个问题
,
网络爬虫系统
应运而生。众所周知
,
搜索引擎从互联网中靶向性筛选出有用信息
,
而网络爬虫又
是搜索引擎的基础构件之一。本文实现了一个基于
python
语言的聚焦网络爬
虫
,
利用关键字匹配技术对目标网站进行扫描
,
得到所需数据并抓取。
【总页数】
2
页
(P
.73-74)
【关键词】
搜索引擎网络爬虫
; python;
网页分析算法
【作者】
杨国志
;
江业峰
【作者单位】
辽宁科技大学
辽宁鞍山
114000
【正文语种】
中文
【中图分类】
TP393
【相关文献】
1.
基于
python
的聚焦网络爬虫数据采集系统设计与实现
[J],
杨国志
;
江业峰
2.
基于网络爬虫技术的舆情数据采集系统设计与实现
[J],
张明杰
3.
基于多线程和翻译的网络爬虫鸟类音频数据采集系统设计与实现
[J],
刘江
;
刘
国玺
;
张雁
;
吕丹桔