Python批量采集亚马逊商品数据 (含完整源代码)

最新推荐文章于 2024-11-29 17:42:12 发布

魔王不会哭

最新推荐文章于 2024-11-29 17:42:12 发布

阅读量7.7k

点赞数 10

分类专栏：爬虫 python 文章标签： python pycharm 开发语言编程语言计算机网络

本文链接：https://blog.csdn.net/python56123/article/details/123355204

版权

本文介绍了如何使用Python 3.8和PyCharm进行亚马逊商品数据的批量采集。通过requests和parsel库，详细讲解了网络请求、数据解析和保存过程，并涉及线程池的使用，帮助读者理解爬虫基本流程、非结构化数据解析及csv数据保存。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

嗨喽 ! 大家好吖,这里是魔王~

亚马逊公司，是美国最大的一家网络电子商务公司，位于华盛顿州的西雅图
是网络上最早开始经营电子商务的公司之一，亚马逊成立于1994年
今天教大家用Python批量采集亚马逊平台商品数据
地址：https://www.amazon.cn/

本次目的:

Python批量采集亚马逊商品数据

知识点:

爬虫基本流程
非结构化数据解析
csv数据保存
线程池的使用

开发环境]:

python 3.8
pycharm
requests >>> pip install requests
parsel >>> pip install parsel

爬虫(python):

批量采集网络数据工具(视频文本图片音频)

本质:

模仿客户端(浏览器) 发送网络请求

基本爬虫思路

网站思路分析:

找到数据来源 https://www.amazon.cn/s?rh=n%3A106200071&fs=true&ref=lp_106200071_sar

代码实现:

发送网络请求 requests 第三方模块发送请求
获取数据
解析数据 parsel ? 帮助解析数据模块第三方模块
保存数据
多页爬取
代码封装成函数使用线程池爬取

编写代码

导入模块

import requests     # 第三方模块
import parsel       # 解析数据模块
import csv

加入伪装

headers = {
   
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'Accept-Encoding': 'gzip, deflate, br',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Cache-Control': 'max-age=0',
    'Connection': 'keep-alive',
    'Cookie': 'session-id=460-4132650-8765807; i18n-prefs=CNY; ubid-acbcn=457-7935785-7667244; session-token=Laa3G6hMbBpdAIPYwutQqKxkSISU8fb2jTr0JiczqkeVISvqn2eqjw4N0BAbYfmy8+/S1B3kLvDb9ImsBnbwQHU6JG8EToefDoi69keaL1F6ExYDXCSqFF0hC4fkGAFJlNYYNqfVlvj5ewTVJP1pYgL4JG2tjM5O2Uk7ufiL9s7gvidAMaUj1QtBW5puqmoG; csm-hit=adb:adblk_no&t:1645531896484&tb:s-VMQ97YXPSC1MBACTN14J|1645531895768; session-id-time=2082729601l',
    'downlink': '10',
    'ect': '4g',
    'Host': 'www.amazon.cn',
    'Referer': 'https://www.amazon.cn/b/ref=s9_acss_bw_cg_pccateg_2a1_w?node=106200071&pf_rd_m=A1U5RCOVU0NYF2&pf_rd_s=merchandised-search-2&pf_rd_r=KE929JDVF8QRWWDQCWC0&pf_rd_t=101&pf_rd_p=cdcd9a0d-d7cf-4dab-80db-2b7d63266973&pf_rd_i=42689071',
    'rtt': '150',
    'sec-ch-ua': '" Not A;Brand";v="99", "Chromium";v="98", "Google Chrome";v="98"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '"Windows"',
    'Sec-

最低0.47元/天解锁文章