这里给出一个在工作中遇到的问题,要抓取某汽车网上的数据,但是有些信息以及图片是由js代码动态生成的,无法用urllib2模块
结合前面两篇文件写的 selenium 的配置,下面的代码给出了通过获取元素得到元素里面的内容的方式爬取数据
from selenium import webdriver
import sys
reload(sys)
sys.setdefaultencoding('utf8')
try:
url="http://www.jdcsww.com/qcggdetail/252364"
browser.get(url) #打开url
imgurl = browser.find_element_by_id('img1') # 通过标记id 获取网页的内容
imgurl = imgurl.get_attribute('src') #得到img标签下的 src 属性里面的内容
content = browser.find_element_by_class_name('contentdetail')#得到正文内容
content = content.text
browser.quit() # 关闭浏览器
print("content:" + content+"\n"+"imgurl:"+imgurl)
content = "content:" + content+"\n"+"imgurl:"+imgurl
except Exception as ex:
print("error msg: " + str(ex))