为了方便构造小类目的链接,你的首先知道大类目的链接,
比如你 知道了大类名称之后,在其的小类目的id直接凭借到其后面就可了
1.代码如下:
import requests
url='https://www.amazon.co.jp/gp/bestsellers'
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'
}
resp=requests.get(url=url,headers=headers)
from scrapy.selector import Selector
select=Selector(resp)
li_list=select.xpath('//*[@id="zg_browseRoot"]/ul//li')
for li in li_list:
link_kinds=li.xpath('./a/@href').extract()
kinds=li.xpath('./a/text()').extract()
print(kinds+link_kinds)
#保存的话,我是保存为csv文件
# 保存csv文件,需要传入一个列表。
import csv
with open("./kinds_link.csv",'a',encoding="utf-8",newline='') as csvfile:
writer = csv.writer(csvfile)
for li in li_list:
link_kinds=li.xpath('./a/@href').extract()
kinds=li.xpath('./a/text()').extract()
print(kinds+link_kinds)
writer.writerow(kinds+link_kinds) #按行写入
2.另外还有一种解析为xpath的包效果一样的,,