亚马逊评价抓取插件_Web Scraper 抓取亚马逊产品标题

本文介绍了如何使用Web Scraper插件来批量抓取亚马逊网站上无线耳塞产品的标题。通过创建sitemap,选择selector,设置抓取规则,并导出为CSV文件,可以方便地获取和整理商品信息。同时,文章提到了商品名称的标准,包括字符限制、大小写规则、标点符号使用等,以及不应包含的主观评价和卖家名称。
摘要由CSDN通过智能技术生成

Web Scraper - Free Web Scraping 批量抓取亚马逊产品标题

插件界面

1f5082d3febc41ebef954762aaa3f24c.png

示例:抓取标题

前台搜索wireless earbuds

step1 打开软件:Ctrl+Shift+I 打开界面

07bb8ba005744beff5082d3334936895.png

step2:创建 sitemap

Create new sitemap - Create Sitemap - Sitemap name(自己起)-Start URL(黏贴当前网页)

b5a69a928624d8ff46abbf8a8c3defe2.png

step3:添加 selector

Add new selector

2f6b821863452c052fcd5920f7392ee0.png

ID(自己起) - Type(选Text) - 点Select,选中2个标题,Done Selecting - Multiple打钩

ea71196a93877dc0e96de9f031176b37.png

Save selector保存

de916188b524619faffa19b9d21d8ba7.png

step4:抓取Scrape

374c571406ef9f0080849faa374235aa.png

Start Scraping

8e9b42c2fd772c2f0228a7fc55557eb5.png

抓取完成界面

3d02039b7022083601a7b36540ae12ba.png

刷新 Refresh,预览界面

b19d49ca6fb17bd17aa5a0da328c95a5.png

导出CSV文件

4d512363364db096428c9d6ed5c5d308.png

下载 Download

20cbb69856ee6a9e63761ab0b0b05dd2.png

CSV文件,排名乱续,不会了

b8ca18801ab19a170ebe6633acf79a74.png

抓取2页数据page=1 改为page=[1-2], 重新抓取

抓取3页数据page=1 改为page=[1-3],重新抓取

...

cdda554d02c4819ef89789fa571e40cd.png

商品名称标准:

  • 商品名称应简洁。我们建议商品名称少于 80 个字符。

  • 请勿全部使用大写字母。

  • 每个单词的首字母大写,但介词、 (in, on, over, with) 连词 (and, or, for) 或冠词 (the, a, an) 除外。

  • 使用数字:[ 2 ] ,而不是 [ two two ] 。

  • 请勿使用非语言 ASCII 字符,如 Æ, ©, or ®。

  • 商品名称应仅包含识别商品所需的最少信息。

  • 请勿使用主观性评价用语,如 [ Hot Item ] 或 [ Best Seller ] 。

  • 商品名称可以包含必要的标点符号,如连字符 (-)、正斜杠 (/)、逗号 (,)、和号 (&) 和句点 (.)。

  • 商品名称可以缩写测量值,如 [ cm ] , [ oz ] , [ in ] , and [ kg ] 。

  • 请勿在商品名称中包含您的卖家名称。

  • 尺寸和颜色变体应包含在子 ASIN 的商品名称中,而非包含在主要商品名称中(见下文)。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,以下是关于使用 Python 的 web scraper 爬取二级网页的简单教程: 1. 导入必要的库 在 Python 中,我们需要使用一些第三方库来实现网页爬取。其中,最为常用的包括 requests 和 BeautifulSoup。前者用于获取网页源代码,后者用于解析 HTML 代码。 ```python import requests from bs4 import BeautifulSoup ``` 2. 获取二级网页 要获取二级网页的内容,我们首先需要获取主网页的链接,然后使用 requests 库获取其源代码,进而找到所有二级网页的链接。我们可以使用 BeautifulSoup 库解析 HTML 代码,并使用 find_all 方法找到所有 a 标签中的 href 属性,即所有链接。 ```python # 获取主网页的链接 url = "https://example.com" response = requests.get(url) soup = BeautifulSoup(response.content, "html.parser") # 获取所有二级网页的链接 links = [] for link in soup.find_all("a"): href = link.get("href") if href.startswith("https://example.com/second-level"): links.append(href) ``` 这里我们假设所有二级链接都以 "https://example.com/second-level" 开头。 3. 爬取二级网页的内容 现在我们已经得到了所有二级网页的链接,接下来就可以依次爬取它们的内容了。和获取主网页的源代码类似,我们可以使用 requests 库获取每个二级网页的源代码,然后使用 BeautifulSoup 库解析 HTML 代码,找到我们需要的内容。 ```python # 爬取所有二级网页的内容 for link in links: response = requests.get(link) soup = BeautifulSoup(response.content, "html.parser") # 这里可以根据需要找到需要的内容 ... ``` 这里需要注意的是,每个二级网页的 HTML 代码可能会有所不同。因此,我们需要根据实际情况找到我们需要的内容。 4. 完整代码 以下是一个完整的示例程序,用于爬取某个网站中以 "https://example.com/second-level" 开头的所有二级网页的标题和正文: ```python import requests from bs4 import BeautifulSoup # 获取主网页的链接 url = "https://example.com" response = requests.get(url) soup = BeautifulSoup(response.content, "html.parser") # 获取所有二级网页的链接 links = [] for link in soup.find_all("a"): href = link.get("href") if href.startswith("https://example.com/second-level"): links.append(href) # 爬取所有二级网页的内容 for link in links: response = requests.get(link) soup = BeautifulSoup(response.content, "html.parser") # 找到标题和正文 title = soup.find("h1").text content = soup.find("div", class_="content").text # 输出结果 print("Title:", title) print("Content:", content) ``` 这段代码可以根据实际需要进行修改。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值