前言
今天周末,国庆调班,闲来无事,就将以前所写的亚马逊搜索框所推荐的关键词采集工具,整理发布出来。整体来讲,是一个简单的小爬虫。
因为小,所以都写在了一个模块中,一个模块分为五个方法来完成整个爬虫流程。
- 网页下载方法
- 网页解析方法
- 解析结果存储至 txt 文件的方法
- 整合网页下载,及存储至txt文件的方法
- main函数组织整个流程的方法
主要内容
一、所涉及到的类库
import requests
import datetime
import time
以上类库,除requests第三方类库,其余都是Python标准库。第三方类库,可cmd 中通过 pip install + 类库名 自动安装 – 前提为已配置好 python的环境变量-windows
- requests 为网页下载库
- datetime 为日期库,本例中用来根据日期的不同设定不同的 采集文件txt的名称
- time 时间库,主要使用sleep方法,用于采集不畅时,暂停程序的库
二、网页下载方法
def get_suggestion(url, sleep=5, retry=3):
try:
r = requests.get(url, timeout=10)
if r.json:
return r.json()
else:
print('网站返回信息为空,当前检索失败')
if retry>=0:
print('正在重新请求')
time.sleep(sleep)
retry -= 1
return get_suggestion(url, retry)
except (requests