20180311_python学习笔记——爬虫

爬虫
urllib
使用urllib.request.urlopen函数就可以访问网页了


>>>import urllib.request
>>>response = urllib.request.open("http://www.fishc.com")
>>>html = response.read()
>>>print(html)




查看源代码,发现跟网页的不一样,是由于编码不一样的缘故。因此,代码需要这样优化
>>>html =html.decode('utf-8')
>>>print(html)




下载一张图片:


import urllib.request


resopnse = urllib.request.urlopen('http://imgsrc.baidu.com/forum/w%3D580/sign=d9d897c810d8bc3ec60806c2b28aa6c8/72acec36afc37931bf0ca4dbe2c4b74542a911b3.jpg')
cat_img = resopnse.read()
with open('cat.jpg','wb') as f:
    f.write(cat_img)




urlopen实际上返回的是一个类文件对象,因为可以使用read()方法来读取内容,除此之外还有一下几个函数:
geturl():返回请求的url
info():返回一个httplib.HTTPMessage对象,包含远程服务器返回的头信息
getcode():返回HTTP状态码





评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值