urllib2 爬取网页信息

最新推荐文章于 2023-08-02 07:00:00 发布

耿帅

最新推荐文章于 2023-08-02 07:00:00 发布

阅读量452

点赞数

分类专栏： python 爬虫，网页爬取文章标签： python 爬虫网页爬取

python 同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

爬虫，网页爬取

1 篇文章 0 订阅

订阅专栏

# coding:utf-8
import cookielib
import urllib2
import bs4


url = 'http://www.baidu.com'
response1 = urllib2.urlopen(url)
print '状态码', response1.getcode()
print len(response1.read())

print '第二种方法，可以加入请求数据'
request = urllib2.Request(url)
request.add_header('user-agent', 'Mozilla/5.0')
response2 = urllib2.urlopen(request)
print '状态码', response2.getcode()
print len(response2.read())

print '第三种方法'
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
urllib2.install_opener(opener)
response3 = urllib2.urlopen(url)
print '状态码', response3.getcode()
print '获取cookie信息',cj
print 'content', response3.read()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

耿帅

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
urllib2 爬取网页信息

# coding:utf-8import cookielibimport urllib2import bs4url = 'http://www.baidu.com'response1 = urllib2.urlopen(url)print '状态码', response1.getcode()print len(response1.read())print '第二种方法，可以加
复制链接

扫一扫