一个可以根据给定根关键词采集Amazon.com的所推荐的长尾关键词的小爬虫

本文链接：https://blog.csdn.net/unknown_world_now/article/details/101673011

本文介绍了一个Python爬虫，用于采集Amazon.com搜索框推荐的长尾关键词。程序包括网页下载、解析、存储等步骤，适用于单个或多个关键词的采集。虽然简单，但能有效处理反爬策略，确保数据的获取。

摘要由CSDN通过智能技术生成

前言

今天周末，国庆调班，闲来无事，就将以前所写的亚马逊搜索框所推荐的关键词采集工具，整理发布出来。整体来讲，是一个简单的小爬虫。
因为小，所以都写在了一个模块中，一个模块分为五个方法来完成整个爬虫流程。

网页下载方法
网页解析方法
解析结果存储至 txt 文件的方法
整合网页下载，及存储至txt文件的方法
main函数组织整个流程的方法

主要内容

一、所涉及到的类库

import requests
import datetime
import time

以上类库，除requests第三方类库，其余都是Python标准库。第三方类库，可cmd 中通过 pip install + 类库名自动安装 – 前提为已配置好 python的环境变量-windows

requests 为网页下载库
datetime 为日期库，本例中用来根据日期的不同设定不同的采集文件txt的名称
time 时间库，主要使用sleep方法，用于采集不畅时，暂停程序的库

二、网页下载方法

def get_suggestion(url, sleep=5, retry=3):
	try:
        r = requests.get(url, timeout=10)
        if r.json:
            return r.json()
        else:
            print('网站返回信息为空，当前检索失败')
            if retry>=0:
                print('正在重新请求')
                time.sleep(sleep)
                retry -= 1
                return get_suggestion(url, retry)
    except (requests