一个可以根据给定根关键词采集Amazon.com的所推荐的长尾关键词的小爬虫

本文介绍了一个Python爬虫,用于采集Amazon.com搜索框推荐的长尾关键词。程序包括网页下载、解析、存储等步骤,适用于单个或多个关键词的采集。虽然简单,但能有效处理反爬策略,确保数据的获取。
摘要由CSDN通过智能技术生成

前言

今天周末,国庆调班,闲来无事,就将以前所写的亚马逊搜索框所推荐的关键词采集工具,整理发布出来。整体来讲,是一个简单的小爬虫。
因为小,所以都写在了一个模块中,一个模块分为五个方法来完成整个爬虫流程。

  1. 网页下载方法
  2. 网页解析方法
  3. 解析结果存储至 txt 文件的方法
  4. 整合网页下载,及存储至txt文件的方法
  5. main函数组织整个流程的方法

主要内容

一、所涉及到的类库
import requests
import datetime
import time

以上类库,除requests第三方类库,其余都是Python标准库。第三方类库,可cmd 中通过 pip install + 类库名 自动安装 – 前提为已配置好 python的环境变量-windows

  1. requests 为网页下载库
  2. datetime 为日期库,本例中用来根据日期的不同设定不同的 采集文件txt的名称
  3. time 时间库,主要使用sleep方法,用于采集不畅时,暂停程序的库
二、网页下载方法
def get_suggestion(url, sleep=5, retry=3):
	try:
        r = requests.get(url, timeout=10)
        if r.json:
            return r.json()
        else:
            print('网站返回信息为空,当前检索失败')
            if retry>=0:
                print('正在重新请求')
                time.sleep(sleep)
                retry -= 1
                return get_suggestion(url, retry)
    except (requests
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值