python使用selenium爬取dell官网驱动(一):获取遍历各驱动的下载网址

python使用selenium爬取戴尔官网驱动:获取遍历各驱动的下载网址然后wget命令试验下载

在这里插入图片描述
我们选择戴尔官网产品的一服务器某型号进行爬虫测试
进入开发这模式看到驱动下载链接都藏在table表格中,因为我们需要遍历当前页面所有驱动下载链接,所以首先搞清楚当前页面共有多少驱动需要爬取。
如何获取他的个数呢?
我尝试了几种方式失败了,最后决定根据戴尔页面的特点,“因地制宜”他的产品都放在表格中,因此我们可以通过获取此页面的table共有多少行tr就可以得到接近正确值,由于将导航栏的标题算进去,所以得到的行数需要减去一,就能得到正确的数目。

通过下面的代码,可以获取到当前页面Table中共有多少行,试验所爬取的网址:戴尔试验爬取驱动网址

# 定位到table,并获得table中所有得tr元素
table = driver.find_element_by_xpath("/html/body/div[1]/div/div[5]/div[2]/div[7]/div/div[2]/div/section[1]/div/div"
                                          "[6]/div[1]/table")

rows = table.find_elements_by_tag_name('tr')

# python 得len()函数返回行数

numbers = len(rows)-1 #我们需要的是包含产品的行数,所以将导航栏一行减去。
print(numbers)

然后我们就可以尝试爬取页面内驱动的下载网址:

from selenium import webdriver
import time


driver =webdriver.Chrome()
# driver.maximize_window()
driver.get('https://www.dell.com/support/home/cn/zh/cnbsd1/product-support/product/poweredge-r420/drivers')
button = driver.find_elements_by_xpath('//*[@id="paginationRow"]')
driver.execute_script("$(arguments[0]).click()", button)
time.sleep(10)

table = driver.find_element_by_xpath("/html/body/div[1]/div/div[5]/div[2]/div[7]/div/div[2]/div/section[1]/div/div"
                                          "[6]/div[1]/table")
rows = table.find_elements_by_tag_name('tr')
numbers = len(rows)-1
print(numbers)

i = 0
while(i < numbers):
    for link in driver.find_elements_by_xpath('/html/body/div[1]/div/div[5]/div[2]/div[7]/div/div[2]/div/section[1]/div/'
                                              'div[6]/div[1]/table/tbody/tr['+str(i+1)+']/td[5]/a[1]'):
        print(link.get_attribute("href"))
    i += 1
print "complete!"
driver.close()

在这里插入图片描述
可以看出,页面内全部驱动下载地址都已成功爬取下来,接下载是要下载,在爬取到网址后加一简单的wget命令即可进行下载。

from selenium import webdriver
import time
import wget


driver =webdriver.Chrome()
# driver.maximize_window()
driver.get('https://www.dell.com/support/home/cn/zh/cnbsd1/product-support/product/poweredge-r420/drivers')
button = driver.find_elements_by_xpath('//*[@id="paginationRow"]')
driver.execute_script("$(arguments[0]).click()", button)
time.sleep(10)

table = driver.find_element_by_xpath("/html/body/div[1]/div/div[5]/div[2]/div[7]/div/div[2]/div/section[1]/div/div"
                                          "[6]/div[1]/table")
rows = table.find_elements_by_tag_name('tr')
numbers = len(rows)-1
print(numbers)

i = 0
while(i < numbers):
    for link in driver.find_elements_by_xpath('/html/body/div[1]/div/div[5]/div[2]/div[7]/div/div[2]/div/section[1]/div/'
                                              'div[6]/div[1]/table/tbody/tr['+str(i+1)+']/td[5]/a[1]'):
        print(link.get_attribute("href"))
        wget.download(link.get_attribute("href"))
    i += 1
print "complete!"
driver.close()

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值