使用selenium爬取唯品会
使用selenium爬取动态加载的网页,爬取唯品会的商品
1、基本步骤
首先,创建一个浏览器驱动driver,查看唯品会页面url的变化规则,确定url,这里的url可以接受中文关键字
然后就是爬虫的三大步骤:数据抓取,数据解析,数据存储
theVip .py
from selenium import webdriver
from lxml import etree
import re
import csv
from time import sleep
## 1. 数据抓取
def fetch_page(goods,url,start,end,driver):
for page in range(start,end+1):
page_url = url%(goods,page)
print('正在访问页面:',page_url)
driver.get(page_url)
sleep(1)
html = driver.page_source
print(html)
## 2. 数据解析
## 3. 数据存储
if __name__ == '__main__':
# 创建一个浏览器驱动
driver = webdriver.Chrome(executable_path=r'C:\mydownload\chromedriver.exe')
# 需要变动的是搜索的关键字和页码数
url ='https://category.vip.com/suggest.php?keyword=%s&page=%d'
goods = input('请输入您要抓取的商品名:')
start = int(input('请输入起始页:'))
end = int(input('请输入终止页:'))
fetch_page(goods=goods,url=url,start=start,end=end,driver=driver)
运行这个.py文件,**print(html)**可以打印相关的页面信息
然而,该程序有需要改善的地方,就是打开浏览器不会自行关闭,因为driver是一个全局变量,不会自行销毁,这里可以把它变成一个局部变量,这样,获取完相应的内容后,浏览器就会自动关闭
把浏览器驱动创建在函数内部,可以随着函数调用的结束而退出,从而节省内存开销
theVip2 .py
from selenium import webdriver
from lxml import etree
import re
import csv
from time import sleep
# 1、【数据抓取】
def fetch_pages(goods,url,start,end):
driver = webdriver.Chrome(executable_path=r"C:\Users\fanjianbo\Desktop\chromedriver_win32\chromedriver.exe") # 把浏览器驱动创建在函数内部,可以随着函数调用的结束而退出
for page in range(start,end+1):
# 拼接url
page_url = url%(goods,page)
print("正在访问页面:",page_url)
driver.get(page_url)
sleep(1)
html = driver.page_source
print(html)
# 2、【数据解析】
# 3、【数据存储】
if __name__ == '__main__':
# 创建一个浏览器驱动
url = "https://category.vip.com/suggest.php?keyword=%s&page=%d"
goods = input("请输入您要抓取的商品名:")
start = int(input("请输入起始页:"))
end = int(input("请输入终止页:"))
fetch_pages(goods=goods,url=url,start=start,end=end)
然而,现在虽然能获取页面,但却还是不能完全获取我们想要的信息,因为这里的页面是动态加载的,通过下拉滚动条才能加载下拉的信息,这里简单介绍一些如何下拉滚动条来获取信息
2、通过程序控制浏览器下拉滚动条获取加载信息
selenium 中没有原生方法可以支持滚动
如果要滚动必须用js来操作
这里以头条为例
theRollback .py
from selenium import webdriver
from time import sleep
# 创建一个浏览器驱动
driver = webdriver.Chrome(executable_path=r'C:\mydownload\chromedriver.exe')
url = 'https://www.toutiao.com/'
driver.get(url=url)
sleep(3)
# # 滚动条向下滚动 距离顶部100
# js = 'document.documentElement.scrollTop=100'
#
# # 用浏览器驱动来执行js语句
# driver.execute_script(js)
# 模拟人类的动作,需要一点点滚动,否则,如果滚动过快,后台就会拒绝刷新
for i in range(100):
# 滚动100次,每次滚动100,每隔2s滚动一次
distance = i*100
# 这个js语句代表滚动条距离顶部的距离
js = 'document.documentElement.scrollTop=%d'%distance
driver.execute_script(js)
sleep(2)
3、完成这个爬虫程序
首先浏览器去头
通过xpath对页面进行数据解析
最后写入csv文件
from selenium import webdriver
from lxml import etree
import re
import csv
from time import sleep
## 1. 数据抓取
def fetch_page(goods, url, start, end):
# 抓取数据成功后 浏览器去头
opt = webdriver.ChromeOptions()
opt.add_argument("--headless")
opt.add_argument("--disable-gpu")
# 创建一个浏览器驱动
driver = webdriver.Chrome(executable_path=r'C:\mydownload\chromedriver.exe',options=opt)
for page in range(start, end + 1):
page_url = url % (goods, page)
print('正在访问页面:', page_url)
driver.get(page_url)
sleep(1)
# 下拉刷新
# 模拟人类的动作,需要一点点滚动,否则,如果滚动过快,后台就会拒绝刷新
for i in range(12):
# 滚动100次,每次滚动100,每隔2s滚动一次
distance = i * 500
# 这个js语句代表滚动条距离顶部的距离
js = 'document.documentElement.scrollTop=%d' % distance
print('第%d页正在进行%d次的刷新'%(page,i+1))
driver.execute_script(js)
sleep(1)
# 获取html字符串
html = driver.page_source
# print(html)
yield html
## 2. 数据解析
def analysis_data(data):
for page in data:
html_tree = etree.HTML(page)
# 提取所有的商品
goods_list = html_tree.xpath("//div[starts-with(@class,'goods-list-item')]")
print(goods_list)
# 遍历每个页面中的所有商品
for goods in goods_list:
item = {}
item["title"] = "".join(goods.xpath(".//h4/a//text()")[1:])
# 由于页面上的商品价格有两种即:疯抢商品和非疯抢商品,他们的价格的解析方式不同,在这里首先要判断商品是否疯抢
special = goods.xpath(".//div[starts-with(@class,'special-price')]//span[@class='title']/text()")
# print(special)
if len(special) != 0:
# 说明是疯抢商品
item["specialPrice"] = special[0]
item["c-price"] = \
re.findall(pattern=r"[0-9]+", string=goods.xpath(".//del[@class='c-price']/text()")[0])[0]
item["special"] = 1
else:
# 不是疯抢商品
item["special"] = 0
item["sellPrice"] = goods.xpath(".//em//span[@class='price']/text()")[0]
# 判断商品有没有打折(即又有市场价和卖价)
marketPrice = goods.xpath(".//del[starts-with(@class,'goods-small-price')]//text()")
print(marketPrice)
if len(marketPrice) == 2:
item["marketPrice"] = marketPrice[1]
yield item
## 3. 数据存储
def writer_to_csv(goods_list):
fp=open('vip.csv','a+',newline='')
writer = csv.writer(fp)
writer.writerow(['special','title','specialPrice','cPrice','sellPrice','marketPrice'])
for goods in goods_list:
row = []
row.append(goods["special"])
row.append(goods["title"])
row.append(goods.get("specialPrice"))
row.append(goods.get("c-price"))
row.append(goods.get("sellPrice"))
row.append(goods.get("marketPrice"))
# print(row)
writer.writerow(row)
if __name__ == '__main__':
# 需要变动的是搜索的关键字和页码数
url = 'https://category.vip.com/suggest.php?keyword=%s&page=%d'
goods = input('请输入您要抓取的商品名:')
start = int(input('请输入起始页:'))
end = int(input('请输入终止页:'))
pages = fetch_page(goods=goods, url=url, start=start, end=end)
good_list = analysis_data(pages)
writer_to_csv(good_list)