使用Python和BeautifulSoup抓取亚马逊的商品信息

最新推荐文章于 2024-07-24 11:41:15 发布

亿牛云爬虫专家

最新推荐文章于 2024-07-24 11:41:15 发布

阅读量1k

点赞数 1

分类专栏： python 爬虫代理爬虫技术文章标签： python beautifulsoup 开发语言网络爬虫爬虫代理

本文链接：https://blog.csdn.net/ip16yun/article/details/130967973

版权

爬虫代理同时被 3 个专栏收录

196 篇文章 1 订阅

订阅专栏

爬虫技术

134 篇文章 0 订阅

订阅专栏

python

101 篇文章 0 订阅

订阅专栏

亿牛云代理
Beautiful Soup 是一个 Python 库，可让您轻松地从 HTML 页面中提取数据。它可以使用各种解析器解析 HTML，例如内置的 Python 解析器、lxml 或 html5lib。 Beautiful Soup 可以帮助您通过标签、属性或文本内容找到特定元素。您还可以使用 .parent、.children 或 .next_sibling 等方法导航 HTML 树结构。 Beautiful Soup 对于网络抓取很有用，因为它可以获取 URL 的内容，然后解析它以提取您需要的信息。例如，您可以使用 Beautiful Soup 从亚马逊网站上抓取商品的标题、价格等信息。
首先安装所需的库：BeautifulSoup、requests和fake-useragent。

pip install beautifulsoup4 requests fake-useragent

下面是demo示例：

from bs4 import BeautifulSoup
import requests
from fake_useragent import UserAgent

# 定义爬取的亚马逊产品页面的URL
url = "https://www.amazon.com/dp/PRODUCT_ID"

# 设置随机UA
ua = UserAgent()
headers = {'User-Agent': ua.random}

# 动态转发隧道代理 使用代理IP提高采集成功率
# 亿牛云 爬虫代理加强版 服务器和用户名、密码认证
proxy_username = '16YUN'
proxy_password = '16IP'
proxy_host = 'www.16yun.cn'
proxy_port = '31000'

# 构造代理IP的格式
proxies = {
    'http': f'http://{proxy_username}:{proxy_password}@{proxy_host}:{proxy_port}',
    'https': f'https://{proxy_username}:{proxy_password}@{proxy_host}:{proxy_port}'
}

# 发送请求并使用代理IP
response = requests.get(url, headers=headers, proxies=proxies)
soup = BeautifulSoup(response.content, 'html.parser')

# 提取产品信息
title_element = soup.find('span', id='productTitle')
price_element = soup.find('span', class_='price')
description_element = soup.find('div', id='productDescription')

title = title_element.text.strip()
price = price_element.text.strip()
description = description_element.text.strip()

# 打印产品信息
print("标题:", title)
print("价格:", price)
print("描述:", description)

亿牛云爬虫专家

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
使用Python和BeautifulSoup抓取亚马逊的商品信息

它可以使用各种解析器解析 HTML，例如内置的 Python 解析器、lxml 或 html5lib。Beautiful Soup 可以帮助您通过标签、属性或文本内容找到特定元素。您还可以使用 .parent、.children 或 .next_sibling 等方法导航 HTML 树结构。Beautiful Soup 对于网络抓取很有用，因为它可以获取 URL 的内容，然后解析它以提取您需要的信息。例如，您可以使用 Beautiful Soup 从亚马逊网站上抓取商品的标题、价格等信息。
复制链接

扫一扫