#coding=utf8
'''
Created on 2016年7月16日
@author: root
'''
import urllib,urllib2
page=1
try:
while page<36:
print"开始爬取第"+str(page)+"个网页......"
url="http://www.qiushibaike.com/8hr/page/"+str(page)+"/?s=4895521"
user_agent="Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.75 Safari/537.36"
headers={'User-Agent':user_agent}
req=urllib2.Request(url,headers=headers)
rsp=urllib2.urlopen(req)
html=rsp.read()
f=open("E:\qiushibaike\\03\page_"+str(page)+".html",'w+')
f.write(html)
f.close()
page=page+1
except urllib2.URLError,e:
if hasattr(e,"code"):
print e.code
if hasattr(e,"reason"):
print e.reason
python网络爬虫实例(一):爬取糗事百科
最新推荐文章于 2024-04-23 10:40:16 发布