网页下载器

最新推荐文章于 2024-04-06 21:32:55 发布

倪畅

最新推荐文章于 2024-04-06 21:32:55 发布

阅读量373

点赞数 1

分类专栏： Python 文章标签：爬虫

Python 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

慕课网《python开发简单爬虫》之下载网页源码的三种方式

#coding:utf-8
import urllib.request
from http.cookiejar import CookieJar

url='http://www.baidu.com'

print('第一种方法')
res1=urllib.request.urlopen(url)
print(res1.getcode())  #打印状态码，200表示成功
print(len(res1.read()))

print('第二种方法')
#添加header，伪装成Mozilla浏览器
request=urllib.request.Request(url,headers={'user-agent':'Mozilla/5.0'})
res2=urllib.request.urlopen(request)
print(res2.getcode())  
print(len(res2.read()))

print('第三种方法')
#使用cookies模拟登录
cj=CookieJar()   #创建cookies容器
opener=urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
urllib.request.install_opener(opener) #安装opener 使urllib具有处理cookies的能力
res3=urllib.request.urlopen(url)
print(res3.getcode())  
print(res3.read())  #打印网页源代码---注意网页源码编码格式是否需要转码
print(cj)   #打印cookies内容