selenium的进阶1

最新推荐文章于 2023-07-28 19:42:32 发布

小豪学长啊

最新推荐文章于 2023-07-28 19:42:32 发布

阅读量462

点赞数

分类专栏： python爬虫那些坑

本文链接：https://blog.csdn.net/Alis_xt/article/details/52903562

版权

python爬虫那些坑专栏收录该内容

19 篇文章 1 订阅

订阅专栏

# -*- coding: utf-8 -*-
"""
Created on Sat Oct 22 18:14:07 2016

@author: alis
"""

from selenium import webdriver
import time,urllib2
from bs4 import BeautifulSoup
browser = webdriver.Firefox()

#设置浏览器窗口的位置和大小
browser.set_window_position(20, 40)
browser.set_window_size(1100,700)

browser.get('http://portal.gd-n-tax.gov.cn/pub/gzsgsww/bsfw/nszx/rdwt/')       #打开网站
time.sleep(2)             #缓冲2秒

###---------------------------example
soup = BeautifulSoup(browser.page_source,'lxml')       # 使用beautifulsoup库解析网址
a = etree.HTML(browser.page_source)                               #使用lxml库解析网站
for i in a.xpath('//div[@class="newslist"]//@href'):
      
    j = 'http://portal.gd-n-tax.gov.cn/pub/gzsgsww/bsfw/nszx/rdwt'+i[1::]
    browser.get(j)
    time.sleep(2)
    Html = etree.HTML(browser.page_source)
    print Html.xpath('//div[@class="contenttitle"]//text()')

print browser.title

#通过get方法获取当前URL打印
url = 'http://www.baidu.com'
print "now access %s" %(url)
browser.get(url)