使用selenium爬取唯品会

最新推荐文章于 2024-06-29 17:13:51 发布

沉觞流年

最新推荐文章于 2024-06-29 17:13:51 发布

阅读量1.5k

点赞数

分类专栏： # Python 爬虫

本文链接：https://blog.csdn.net/qq_44614026/article/details/91838457

版权

Python 爬虫专栏收录该内容

29 篇文章 4 订阅

订阅专栏

使用selenium爬取唯品会

使用selenium爬取动态加载的网页,爬取唯品会的商品

1、基本步骤

首先,创建一个浏览器驱动driver,查看唯品会页面url的变化规则,确定url,这里的url可以接受中文关键字
在这里插入图片描述
然后就是爬虫的三大步骤:数据抓取,数据解析,数据存储
theVip .py

from selenium import webdriver
from lxml import etree
import re
import csv
from time import sleep

## 1. 数据抓取

def fetch_page(goods,url,start,end,driver):
	for page in range(start,end+1):
		page_url = url%(goods,page)
		print('正在访问页面:',page_url)
		driver.get(page_url)
		sleep(1)
		
		html = driver.page_source
		print(html)
	

## 2. 数据解析


## 3. 数据存储

if __name__ == '__main__':
	
	# 创建一个浏览器驱动
	driver = webdriver.Chrome(executable_path=r'C:\mydownload\chromedriver.exe')
	
	# 需要变动的是搜索的关键字和页码数
	url ='https://category.vip.com/suggest.php?keyword=%s&page=%d'
	
	goods = input('请输入您要抓取的商品名:')
	start = int(input('请输入起始页:'))
	end = int(input('请输入终止页:'))
	fetch_page(goods=goods,url=url,start=start,end=end,driver=driver)

运行这个.py文件,**print(html)**可以打印相关的页面信息
然而,该程序有需要改善的地方,就是打开浏览器不会自行关闭,因为driver是一个全局变量,不会自行销毁,这里可以把它变成一个局部变量,这样,获取完相应的内容后,浏览器就会自动关闭
把浏览器驱动创建在函数内部，可以随着函数调用的结束而退出，从而节省内存开销
theVip2 .py

from selenium import webdriver
from lxml import etree
import re
import csv
from time import sleep
# 1、【数据抓取】
def fetch_pages(goods,url,start,end):
    driver = webdriver.Chrome(executable_path=r"C:\Users\fanjianbo\Desktop\chromedriver_win32\chromedriver.exe") # 把浏览器驱动创建在函数内部，可以随着函数调用的结束而退出
    for page in range(start,end+1):
        # 拼接url
        page_url = url%(goods,page)
        print("正在访问页面：",page_url)
        driver.get(page_url)
        sleep(1)
        

        html = driver.page_source
        print(html)



# 2、【数据解析】

# 3、【数据存储】



if __name__ == '__main__':
    # 创建一个浏览器驱动

    url = "https://category.vip.com/suggest.php?keyword=%s&page=%d"
    goods = input("请输入您要抓取的商品名：")
    start = int(input("请输入起始页："))
    end = int(input("请输入终止页："))
    fetch_pages(goods=goods,url=url,start=start,end=end)

然而,现在虽然能获取页面,但却还是不能完全获取我们想要的信息,因为这里的页面是动态加载的,通过下拉滚动条才能加载下拉的信息,这里简单介绍一些如何下拉滚动条来获取信息

2、通过程序控制浏览器下拉滚动条获取加载信息

selenium 中没有原生方法可以支持滚动
如果要滚动必须用js来操作

这里以头条为例
theRollback .py

from selenium import webdriver
from time import  sleep

# 创建一个浏览器驱动
driver = webdriver.Chrome(executable_path=r'C:\mydownload\chromedriver.exe')

url = 'https://www.toutiao.com/'

driver.get(url=url)
sleep(3)
# # 滚动条向下滚动  距离顶部100
# js = 'document.documentElement.scrollTop=100'
#
# # 用浏览器驱动来执行js语句
# driver.execute_script(js)

# 模拟人类的动作,需要一点点滚动,否则,如果滚动过快,后台就会拒绝刷新
for i in range(100):
	# 滚动100次,每次滚动100,每隔2s滚动一次
	distance = i*100
	# 这个js语句代表滚动条距离顶部的距离
	js = 'document.documentElement.scrollTop=%d'%distance
	driver.execute_script(js)
	sleep(2)

3、完成这个爬虫程序

首先浏览器去头
通过xpath对页面进行数据解析
最后写入csv文件

from selenium import webdriver
from lxml import etree
import re
import csv
from time import sleep


## 1. 数据抓取

def fetch_page(goods, url, start, end):
	
	# 抓取数据成功后 浏览器去头
	opt = webdriver.ChromeOptions()
	opt.add_argument("--headless")
	opt.add_argument("--disable-gpu")
	
	# 创建一个浏览器驱动
	driver = webdriver.Chrome(executable_path=r'C:\mydownload\chromedriver.exe',options=opt)
	
	for page in range(start, end + 1):
		page_url = url % (goods, page)
		print('正在访问页面:', page_url)
		driver.get(page_url)
		sleep(1)
		
		# 下拉刷新
		# 模拟人类的动作,需要一点点滚动,否则,如果滚动过快,后台就会拒绝刷新
		for i in range(12):
			# 滚动100次,每次滚动100,每隔2s滚动一次
			distance = i * 500
			# 这个js语句代表滚动条距离顶部的距离
			js = 'document.documentElement.scrollTop=%d' % distance
			
			print('第%d页正在进行%d次的刷新'%(page,i+1))
			
			driver.execute_script(js)
			sleep(1)
		
		# 获取html字符串
		html = driver.page_source
		# print(html)
		yield html


## 2. 数据解析
def analysis_data(data):
	for page in data:
		html_tree = etree.HTML(page)
		# 提取所有的商品
		goods_list = html_tree.xpath("//div[starts-with(@class,'goods-list-item')]")
		print(goods_list)
		# 遍历每个页面中的所有商品
		for goods in goods_list:
			item = {}
			item["title"] = "".join(goods.xpath(".//h4/a//text()")[1:])
			# 由于页面上的商品价格有两种即：疯抢商品和非疯抢商品，他们的价格的解析方式不同，在这里首先要判断商品是否疯抢
			special = goods.xpath(".//div[starts-with(@class,'special-price')]//span[@class='title']/text()")
			# print(special)
			if len(special) != 0:
				# 说明是疯抢商品
				item["specialPrice"] = special[0]
				item["c-price"] = \
				re.findall(pattern=r"[0-9]+", string=goods.xpath(".//del[@class='c-price']/text()")[0])[0]
				item["special"] = 1
			else:
				# 不是疯抢商品
				item["special"] = 0
				item["sellPrice"] = goods.xpath(".//em//span[@class='price']/text()")[0]
				# 判断商品有没有打折（即又有市场价和卖价）
				marketPrice = goods.xpath(".//del[starts-with(@class,'goods-small-price')]//text()")
				print(marketPrice)
				if len(marketPrice) == 2:
					item["marketPrice"] = marketPrice[1]
			
			yield item
			


## 3. 数据存储
def writer_to_csv(goods_list):
	fp=open('vip.csv','a+',newline='')
	writer = csv.writer(fp)
	writer.writerow(['special','title','specialPrice','cPrice','sellPrice','marketPrice'])
	for goods in goods_list:
		row = []
		row.append(goods["special"])
		row.append(goods["title"])
		row.append(goods.get("specialPrice"))
		row.append(goods.get("c-price"))
		row.append(goods.get("sellPrice"))
		row.append(goods.get("marketPrice"))
		# print(row)
		writer.writerow(row)


if __name__ == '__main__':
		# 需要变动的是搜索的关键字和页码数
	url = 'https://category.vip.com/suggest.php?keyword=%s&page=%d'
	
	goods = input('请输入您要抓取的商品名:')
	start = int(input('请输入起始页:'))
	end = int(input('请输入终止页:'))
	pages = fetch_page(goods=goods, url=url, start=start, end=end)
	good_list = analysis_data(pages)
	writer_to_csv(good_list)