Python 爬取单个网页所需要加载的URL地址和CSS、JS文件地址
通过学习Python爬虫,知道根据正式表达式匹配查找到所需要的内容(标题、图片、文章等等)。而我从测试的角度去使用Python爬虫,希望爬取到访问该网页所需要的CSS、JS、URL,然后去请求这些地址,根据响应的状态码判断是否都可以成功访问。
代码
'''
Created on 2017-08-02
@author: Lebb
'''
import sys
import urllib2
import re
reload(sys)
sys.setdefaultencoding('utf-8')
url = "https://www.szrtc.cn/"
http = "http"
request = urllib2.Request(url,headers=Headers)
responsecode = None
errorcount = 0
itemurl = url
def getResponse():
try:
response = urllib2.urlopen(request)
except urllib2.HTTPError,he:
print he.code
except urllib2.URLError,ue:
print ue.reason
else :
return response.read().decode('utf-8')
def getUrl():
html = getResponse()
patterncss ='<link href="(.*?)"'