selenium+chromedriver的心得

对于一些ajax,或者请求方式为post,且需要发送数据的网页可以使用selenium+chromedriver来解决。
虽然效率上比较慢,但是代码简单。
以下以一个简单例子来了解以下:
目的:抓取甘肃省政府采购网信息中的中标公告的内容。
分析网页后得到如下思路:
1.构造每一页的url
2.点击中标公告,点击查询,得到中标页面
3.得到每一个公告的URL,拿到数据。
4.保存数据

构造每一页url

  for i in range(0 ,1283):
         url  = "http://www.ccgp-gansu.gov.cn/web/doSearchmxarticle.action?limit={}&start={}".format(i*20,(i+1)*20)

点击中标公告,点击查询,得到中标页面

使用模拟浏览器的行为时,如果某个元素在页面中没有加载好,就去访问会报错,因此使用等待,等到数据加载出来,再去访问。

from selenium.webdriver.chrome.options import Options
from lxml import etree
import time
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
#初始化一个浏览器
 chrome_options = Options()
 chrome_options.add_argument("--headless")
 driver = webdriver.Chrome(options=chrome_options)
#发送请求,并沉睡。
 driver.get(url)
 time.sleep(2)
#等到中标元素出来后,在点击。
 WebDriverWait(driver,10).until(
 EC.presence_of_all_elements_located((By.ID,'c12802'))
 )
 driver.find_element_by_id("c12802").click()
 #等到查询元素出来,在查询。
 WebDriverWait(driver, 10).until(
 EC.presence_of_all_elements_located((By.NAME, 'button'))
 )
 driver.find_element_by_name("button").click()
 time.sleep(2)

拿到每一个公告的URL,拿到数据。

html = etree.HTML(driver.page_source)
href_list =html.xpath("/html/body//ul[@class='Expand_SearchSLisi']/li/a/@href")
for href in href_list:
	href = "http://www.ccgp-gansu.gov.cn" + href
	print(href)
	driver.get(href)
	time.sleep(1)
	html = etree.HTML(driver.page_source)
	info = html.xpath("/html/body//div[@id='fontzoom']//p//text()")

保存数据

这里可以加上自己的一些清洗,然后按着自己想要的格式保存。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值