基于
Python
的网络爬虫技术研究
王碧瑶
【摘
要】
摘要:专用型的网络爬虫能够得到想要的返回结果
,
本文就以拉勾网作
为例子
,
对基于
Python
的网络爬虫技术进行研究和分析。
【期刊名称】
数字技术与应用
【年
(
卷
),
期】
2017(000)005
【总页数】
1
【关键词】
Python
;网络爬虫技术;搜索引擎
【
文
献
来
源
】
https://www.zhangqiaokeyan.com/academic-journal-cn_digital-technology-
application_thesis/0201236700381.html
1
爬虫系统需求的分析和设计
利用模块化的设计来对网络爬虫系统进行开发
,
一个通用的爬虫架构需要有爬虫
调度端
,URL
管理器
,
网页下载器
,
网页解析器这
4
个模块。爬虫调度端去启动、
停止或者监视爬虫运行情况
,URL
管理器去对将要爬取的
URL
和已经爬取过的
URL
进行管理
<