基于Python获取亚马逊的评论

本文介绍了如何使用Python分析和获取亚马逊商品评论,包括解析评论请求、获取评论内容、处理评论信息,以及设置代理和翻页,通过稳定IP代理解决访问限制问题。
摘要由CSDN通过智能技术生成

        上次亚马逊的商品信息都获取到了,自然要看一下评论的部分。用户的评论能直观的反映当前商品值不值得购买,亚马逊的评分信息也能获取到做一个评分的权重。

        亚马逊的评论区由用户ID,评分及评论标题,地区时间,评论正文 这几个部分组成,本次获取的内容就是这些。

        测试链接:https://www.amazon.it/product-reviews/B08GHGTGQ2/ref=cm_cr_arp_d_paging_btm_14?ie=UTF8&pageNumber=14&reviewerType=all_reviews&pageSize=10&sortBy=recent

一、分析亚马逊的评论请求

        首先打开开发者模式的Network,Clear清屏做一次请求:

        你会发现在Doc中的get请求正好就有我们想要的评论信息。

        可是真正的评论数据可不是全部都在这里的,页面往下翻,有个翻页的button:

         点击翻页请求下一页,在Fetch/XHR选项卡中多了一个新的请求,刚才的Doc选项卡中并无新的get请求。这下发现了所有的评论信息是XHR类型的请求。

 

         获取到post请求的链接和payload数据,里面含有控制翻页的参数,真正的评论请求已经找到了。

        这一堆就是未处理的信息,这些请求未处理的信息里面,带有data-hook=\"review\"的就是带有评论的信息。分析完毕,下面开始一步一步去写请求。

二、获取亚马逊评论的内容

        首先拼凑请求所需的post参数,请求链接,以便之后的自动翻页,然后带参数post请求链接:

headers = {
    'authority': 'www.amazon.it',
    "accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36",
}

page = 1
post_data = {
    "sortBy": "recent",
    "reviewerType": "all_reviews",
    "formatType": "",
    "mediaType": "",
    "filterByStar": "",
    "filterByLanguage": "",
    "filterByKeyword": "",
    "shouldAppend": "undefined",
    "deviceType
  • 16
    点赞
  • 40
    收藏
    觉得还不错? 一键收藏
  • 13
    评论
要进行Python亚马逊爬虫,你可以使用Selenium库或者urllib库来实现。 使用Selenium库可以模拟浏览器操作,具体步骤如下: 1. 安装Selenium库,并下载对应浏览器的WebDriver(如ChromeDriver)。 2. 导入Selenium库。 3. 创建浏览器对象并指定WebDriver的路径。 4. 使用浏览器对象打开亚马逊网站。 5. 使用Selenium的相关方法来定位和获取页面元素,例如输入框、按钮等。 6. 使用Selenium的方法来模拟点击、输入等操作。 7. 使用Selenium的方法来获取页面源代码或者特定元素的信息。 8. 关闭浏览器对象。 使用urllib库可以发送HTTP请求获取亚马逊页面的源代码,具体步骤如下: 1. 导入urllib库。 2. 使用urllib库的`urlopen()`函数发送GET请求,并指定目标网址。 3. 使用`read()`方法读取响应内容。 4. 对响应内容进行解码(如果需要)。 5. 对解码后的内容进行解析,可以使用BeautifulSoup等库来提取页面元素。 6. 关闭连接。 请注意,亚马逊网站有反爬虫机制,因此你可能需要使用代理、设置请求头、处理验证码等措施来避免被检测和封禁。 参考代码示例(基于Selenium): ``` from selenium import webdriver # 设置ChromeDriver的路径 chrome_driver_path = "path_to_chromedriver" # 创建Chrome浏览器对象 browser = webdriver.Chrome(chrome_driver_path) # 打开亚马逊网站 url = "https://www.amazon.com" browser.get(url) # 在搜索框中输入关键字 search_input = browser.find_element_by_id("twotabsearchtextbox") search_input.send_keys("python") # 点击搜索按钮 search_button = browser.find_element_by_xpath("//input[@value='Go']") search_button.click() # 获取搜索结果 search_results = browser.find_elements_by_xpath("//h2[@class='a-size-mini']") for result in search_results: print(result.text) # 关闭浏览器 browser.quit() ``` 参考代码示例(基于urllib): ``` import urllib.request # 发送GET请求并获取响应 url = "https://www.amazon.com" response = urllib.request.urlopen(url) # 读取响应内容 content = response.read().decode("utf-8") print(content) # 解析页面内容,提取相关信息 # ... # 关闭连接 response.close() ``` 希望以上信息对你有所帮助!
评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值