爬取亚马逊bestsellers首页的链接

最新推荐文章于 2022-05-29 10:43:38 发布

weixin_43351935

最新推荐文章于 2022-05-29 10:43:38 发布

阅读量690

点赞数

分类专栏： Python爬虫

本文链接：https://blog.csdn.net/weixin_43351935/article/details/104819017

版权

Python爬虫专栏收录该内容

8 篇文章 0 订阅

订阅专栏

为了方便构造小类目的链接，你的首先知道大类目的链接，
比如你知道了大类名称之后，在其的小类目的id直接凭借到其后面就可了
在这里插入图片描述
1.代码如下：

import requests
url='https://www.amazon.co.jp/gp/bestsellers'
headers={
   'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'
}
resp=requests.get(url=url,headers=headers)
from scrapy.selector import Selector
select=Selector(resp)
li_list=select.xpath('//*[@id="zg_browseRoot"]/ul//li')
for li in li_list:
    link_kinds=li.xpath('./a/@href').extract()
    kinds=li.xpath('./a/text()').extract()
    print(kinds+link_kinds)

#保存的话，我是保存为csv文件
# 保存csv文件，需要传入一个列表。
import csv
with open("./kinds_link.csv",'a',encoding="utf-8",newline='') as csvfile:
    writer = csv.writer(csvfile)
    for li in li_list:
        link_kinds=li.xpath('./a/@href').extract()
        kinds=li.xpath('./a/text()').extract()
        print(kinds+link_kinds)
        writer.writerow(kinds+link_kinds)  #按行写入

2.另外还有一种解析为xpath的包效果一样的，，
在这里插入图片描述

weixin_43351935

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
爬取亚马逊bestsellers首页的链接

为了方便构造小类目的链接，你的首先知道大类目的链接，比如你知道了大类名称之后，在其的小类目的id直接凭借到其后面就可了1.代码如下：import requestsurl='https://www.amazon.co.jp/gp/bestsellers'headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64...
复制链接

扫一扫