要注意,为了防止爬虫被网站封禁,你需要使用适当的代理或者设置合理的爬取频率。
import requests
from bs4 import BeautifulSoup
def get_product_info(url):
# 发送GET请求进入网站
response = requests.get(url)
# 选择商品
soup = BeautifulSoup(response.text, 'html.parser')
product_elements = soup.find_all('a', {'class': 'add-to-cart'})
# 选择商品后进入购买页面获取商品页面链接
product_url = product_elements[0].get('href')
# 获取商品页面
response = requests.get(product_url)
#解析
soup = BeautifulSoup(response.text, 'html.parser')
# 获取商品名称
product_name = soup.find('h1', {'class': 'product-name'}).text
# 获取商品链接中的部分内容,比如商品编号等
part_of_link = "https://example.com/some/path/{0}".format(soup.find('span', {'class': 'sku-id'}).text)
return product_name, part_of_link
你需要替换上述代码中的 "https://example.com"
为你要爬取的网站的实际URL。此外,这个程序只会抓取商品名称和商品链接中的一部分内容,你需要根据实际情况修改这部分代码以获取你需要的所有信息。这个程序也假设了商品名称和部分链接会出现在相应的HTML元素中,实际情况可能会有所不同。
在使用这个程序时,你需要确保你有权限爬取这些网站的内容,并且遵守网站的爬虫使用政策。在没有得到网站所有者许可的情况下,过度使用爬虫可能会导致你的IP地址被封禁。