爬取1688某店铺内所有商品链接、最低批发价格、商品名称
本文通过某1688店铺的链接,然后爬取该店铺所有商品的基本信息,包括商品链接、最低批发价格及商品的全名。
之后还通过简单的正则表达式从商品全名中解析出商品的货号。
最后将商品信息导入excel中。
本文中未解决的问题是:
如何从每个商品链接中爬取详细的商品信息。用selenium爬出的网页一直是乱码,requests包根本啥都爬不出来。是否有其他的包可以用?
1688上某些商品的价格信息被锁,需要登陆才能获取,如何登陆呢?
1688店铺链接中,商品的排序是否会发生变化。本文假设没有变化。
第一步:导入所需要的包
from selenium import webdriver # 需要驱动文件 selenium包用于爬虫
import pandas as pd # 用于导出数据
import json # json用于解析爬取的网页
第二步:定义selenium爬虫的option和driver
option=webdriver.ChromeOptions()
option.add_argument('--headless') # 爬取时不自动弹出浏览器
driver=webdriver.Chrome(options=option,executable_path="chromedriver.exe") # executable_path为驱动文件路径
第三步:定义存储商品信息的list
urls = [] # 商品链接
descs = [] # 商品全名
prices