# -*- coding: utf-8 -*-
"""
Created on Sat Oct 22 18:14:07 2016
@author: alis
"""
from selenium import webdriver
import time,urllib2
from bs4 import BeautifulSoup
browser = webdriver.Firefox()
#设置浏览器窗口的位置和大小
browser.set_window_position(20, 40)
browser.set_window_size(1100,700)
browser.get('http://portal.gd-n-tax.gov.cn/pub/gzsgsww/bsfw/nszx/rdwt/') #打开网站
time.sleep(2) #缓冲2秒
###---------------------------example
soup = BeautifulSoup(browser.page_source,'lxml') # 使用beautifulsoup库解析网址
a = etree.HTML(browser.page_source) #使用lxml库解析网站
for i in a.xpath('//div[@class="newslist"]//@href'):
j = 'http://portal.gd-n-tax.gov.cn/pub/gzsgsww/bsfw/nszx/rdwt'+i[1::]
browser.get(j)
time.sleep(2)
Html = etree.HTML(browser.page_source)
print Html.xpath('//div[@class="contenttitle"]//text()')
print browser.title
#通过get方法获取当前URL打印
url = 'http://www.baidu.com'
print "now access %s" %(url)
browser.get(url)
selenium的进阶1
最新推荐文章于 2023-07-28 19:42:32 发布