使用代理和 Python 高效进行亚马逊数据抓取：实用指南

最新推荐文章于 2024-09-05 10:28:02 发布

Smartdaili China

最新推荐文章于 2024-09-05 10:28:02 发布

阅读量893

点赞数 12

文章标签： python 开发语言动态住宅代理代理测试工具数据中心代理美丽汤

本文链接：https://blog.csdn.net/SmartGarret/article/details/141641454

版权

文章目录

一、简介
二、为什么要抓取亚马逊？
三、了解代理
- 3. 1. 搜索亚马逊的代理类型
四、为什么使用 Python？
五、设置
- 5. 1. 选择代理
- 5. 2. 设置代理
六、抓取数据
七、解析数据
八、结论

一、简介

在现代数字环境中，分析网络流量对于优化网站性能、了解用户行为和确保安全至关重要。使用代理和 Python（一种功能强大的编程语言）是进行此类分析的有效方法之一。

本博客将引导您了解使用代理和 Python 分析网络流量的过程，重点是全球最大的电子商务平台之一亚马逊的实际实施和示例。

二、为什么要抓取亚马逊？

1. 市场调研：深入了解流行产品、定价趋势和消费者偏好。
2. 竞争分析： 监控竞争对手的定价和产品。
3. 机器学习数据： 利用扫描数据训练机器学习模型，预测市场趋势或消费者行为。

三、了解代理

代理是计算机与互联网之间的中介。它们允许您通过不同的 IP 地址路由网络请求，提供匿名、绕过地理限制和分配流量负载等各种好处。在分析网络流量时，代理可以帮助从各种来源收集数据，而不会暴露身份或被速率限制机制阻止。

3. 1. 搜索亚马逊的代理类型

与亚马逊合作效果最好的代理主要有两种：

动态住宅代理： 这些地址来自真实用户的设备，因此不太可能被亚马逊检测和阻止，因为它们显示为正常的用户流量。

数据中心代理： 这些是由数据中心提供的 IP 地址。与住宅代理相比，它们速度更快、成本更低，但很容易被亚马逊检测和阻止。

四、为什么使用 Python？

Python 简单易用，拥有丰富的库和活跃的社区支持，是网络流量分析的理想选择。requests 和 beautifulsoup4 等库能轻松发送 HTTP 请求和解析 HTML 内容，而 panda 和 numpy 等库则是数据分析的绝佳工具。

五、设置

5. 1. 选择代理

1. 注册 Smartdaili 面板。

在这里插入图片描述
2. 在右侧菜单栏中选择符合您需求的代理类型。

在这里插入图片描述
3. 选择适合您需要的代理和计划。

在这里插入图片描述

5. 2. 设置代理

打开代理设置选项卡。
导航到下面的端点生成器。
配置参数。设置身份验证方法、位置、会话类型和协议。
选择要生成的代理端点数量（默认 -10）。
单击复制按钮复制端点。
获取代理并开始搜索亚马逊！

六、抓取数据

完成设置后，下一步就是选择编程语言或工具来进行搜索。目前有许多可选的网络搜刮库，很难一一列举；因此，你应该研究一下哪种最适合你。在本教程中，我们将采用对初学者友好的方法，使用 Python 和 requests 库编写简单的代码来搜索亚马逊数据。
在计算机上安装最新版本的 Python，开始设置环境。如果您是 Windows 用户，请在 PATH 中添加 python.exe，以便从终端执行 Python 命令。

在这里插入图片描述
Python 应该会自动附带 pip，这是 Python 的软件包安装程序，您需要用它来安装请求库。在 Windows 终端运行以下命令以确保已安装：

python -m ensurepip --upgrade

您还需要一个集成开发环境（IDE），如免费的
Visual Studio Code 来编写和测试代码。安装完成后，打开它并创建一个名为 amazon_scraper.py 的新文件。然后，在终端运行此命令安装请求库：

python -m pip install requests

最后，编写代码：

# 首先导入请求库。它可以帮助你向亚马逊服务器发出 HTTP/HTTPS 请求
import requests

# 从控制面板输入代理信息。您可以通过选择 HTTP 输出格式，立即从端点生成器获取整个 URL
# 示例：http://exampleuser:examplepassword@gate.dc.visitxiangtan.com:8000

proxy_url = "http://{user}:{password}@{gateway}:{port}"

# 对 HTTP 和 HTTPS 请求定义使用相同的代理 URL
proxies = {
    "http": proxy_url,
    "https": proxy_url
}

# 设置要抓取的目标 URL。我们以耳机产品页面为例。它包含商品的所有基本信息、产品价格、产品等级、评论等。
url = "https://www.amazon.com/Riwbox-TX8-Bluetooth-Headphones-Wireless/dp/B09FT3KWJZ/"

# 头信息使你的代码看起来像一个真实的人在访问网站，也是避免被限制速率或禁止 IP 的关键因素。
# User-Agent 头信息是必须的，它提供了关于你的 “系统 ”的基本信息。没有它，你很可能会得到一个错误结果。
# 仅凭用户代理标头，你可能不会得到任何结果。其他头信息不那么重要，但你必须至少包含几个头信息，这样才能以真实用户的身份出现。

headers = {
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36",
"Accept-Encoding":"gzip, deflate",
"Accept":"text/html, application/xhtml+xml, application/xml;q=0.9,*/*;q=0.8",
"Upgrade-Insecure-Requests":"1"
}

# 定义好一切后，就该付诸行动了。在这里，你将使用 requests 库请求目标 URL，并附上已定义的标头和代理信息。
response = requests.get(url, headers=headers, proxies=proxies)

# 打印内容以获得结果
print(response.content)

要执行代码，只需在终端运行此命令即可：

python amazon_scraper.py

如果一切顺利，那就太好了！否则，您可能会在标签下看到以下信息： “如需讨论自动访问亚马逊数据的问题，请联系 api-services-support@amazon.com 。"。这意味着，您的请求被检测为自动请求，其余结果将只是一个错误页面。要解决这个问题，可以尝试更改标头的值或添加新的标头，并不断尝试，直到找到有效的标头为止。如果一切配置正确，你就能在终端中看到 HTML 格式的整个页面。

此时，你可能想知道如何理解结果。因为数据隐藏在复杂的 HTML 中，人很难读懂，所以看起来很混乱。虽然您只需稍加侦查就能找到所需的信息，但从亚马逊获取数据的工作中，刮擦只是其中的一半。另一部分工作在于
解析数据，并使您刚刚收到的文本内容变得有意义。你甚至可以说，你想让你的汤更美。

七、解析数据

Beautiful Soup 是一个 Python 库，可帮助您解析刮擦数据，使其更易于人类阅读。安装方法与安装请求库相同：

python -m pip install beautifulsoup4

虽然我们不会深入探讨该库的所有可能性，但在这里，只需挑选出您所关心的元素（在本例中为产品标题、价格和评论），就可以改进之前的代码：

import requests

# 导入 Beautiful Soup，以便从响应中解析结果
from bs4 import BeautifulSoup

proxy_url = "http://{user}:{password}@{gateway}:{port}"

proxies = {"http": proxy_url, "https": proxy_url}

url = "https://www.amazon.com/Riwbox-TX8-Bluetooth-Headphones-Wireless/dp/B09FT3KWJZ/"

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36",
    "Accept-Encoding": "gzip, deflate",
    "Accept": "text/html, application/xhtml+xml, application/xml;q=0.9,*/*;q=0.8",
    "Content-Language": "en-GB",
    "Upgrade-Insecure-Requests": "1",
}

response = requests.get(url, headers=headers, proxies=proxies)

# 使用 Beautiful Soup 解析 HTML，并以更易读的方式呈现。如果你使用 print(soup)，就会得到一个更容易阅读的 HTML 格式。你还会看到一只 “喵喵 ”叫的鸭子。
soup = BeautifulSoup(response.content, "html.parser")

# 接下来，您只想从回复中挑选出特定的元素，在本例中，就是标题、价格和评论。
# 标题和价格很容易获取。只需检查页面，找出存储信息的类，然后运行 soup.find() 方法查找元素即可。

title = soup.find(class_="product-title-word-break")
price = soup.find(class_="a-offscreen")

#评论需要略微不同的方法，因为其中有多个元素需要查看。在这里，你将获得评论标题、星级和评论文本。
# 使用 soup.find_all() 方法按类查找项目，并从该类对应的页面中检索每个元素。

reviewTitles = soup.find_all(class_="review-title-content")
starRatings = soup.find_all(class_="review-rating")
reviewTexts = soup.find_all(class_="review-text-content")

# 最后，打印输出。在第一行打印产品名称和价格。使用 strip() 删除不必要的空白，使其看起来更漂亮。
print(title.text.strip(), price.text.strip() + "\n")

# 对于其余的输出，使用 for 循环逐一查看每个评论。你可以添加一些额外的元素，使其更容易阅读，就像下面的例子一样。
for (reviewTitle, starRating, reviewText) in zip(reviewTitles, starRatings, reviewTexts):
    print(reviewTitle.text.strip() + " | " + starRating.text.strip())
    print(reviewText.text.strip() + "\n")

在终端运行脚本时，它会返回标题、价格和评论等结果。虽然它远非完美，但却是可读的宝贵数据！你可以通过阅读美丽汤的文档，了解更多如何充分利用美丽汤。它将帮助你根据自己的需要定制代码，从网页中提取你想要的内容，并简洁明了地呈现出来，例如，以 CSV 文件的形式。

八、结论

使用代理和 Python 分析网络流量可以大大提高您有效收集和分析数据的能力。无论您是在优化自己的网站、进行竞争分析，还是在收集数据进行研究，代理和 Python 的结合都能为您提供强大的工具包。

利用代理的强大功能，您可以确保匿名性、避免速率限制并访问受地理限制的内容。Python 的简单性和丰富的库使其成为实施网络流量分析的绝佳选择。

开始尝试使用所提供的代码示例，探索使用代理和 Python 进行网络流量分析的巨大可能性。您所获得的洞察力将推动您做出更好的决策，并改善您的整体数字战略。

Smartdaili China

关注

12
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
使用代理和 Python 高效进行亚马逊数据抓取：实用指南

在现代数字环境中，分析网络流量对于优化网站性能、了解用户行为和确保安全至关重要。使用代理和 Python（一种功能强大的编程语言）是进行此类分析的有效方法之一。本博客将引导您了解使用代理和 Python 分析网络流量的过程，重点是全球最大的电子商务平台之一亚马逊的实际实施和示例。
复制链接

扫一扫