python爬虫

import urllib.request
url = “http://www.baidu.com/
response = urllib.request.urlopen(url)
print(response)
data = response.read()
print(data)
str_data = data.decode(“utf-8”)
print(str_data)
with open(“baidu.html01”,“w”,encoding=“utf-8”)as f:
f.write(str_data)
str_name = “baidu”
bytes_name = str_name.encode(“utf-8”)
print(bytes_name)

urlretrieve():
作用:就是将远程数据下载到本地
基本语法:

        urllib.request.urlretrieve(url[,filename[,reporthook[,data]]])

        参数说明:
        url:外部的url或者本地的url
        filename:设定保存到本地的路径,(如果未指定该参数,urllib会生成一个临时文件来保存数据)
        reporthook:是一个回调函数,我们可以用这个回调函数来显示当前的下载进度
        data:指post到服务器的数据。该方法返回一个包含两个元素的元祖(filename,headers)filename表示保存到本地的路径,
        headers表示服务器响应头

例:
import urllib.request
url = “https://www.baidu.com/
ret1 = urllib.request.urlretrieve(“https://www.baidu.com/",filename="E:/baidu.html”)
print(ret1)
(‘E:/baidu.html’, <http.client.HTTPMessage object at 0x0000006F25B90940>

getcode()
得到当前网页的状态码
geturl()
得到当前网页的网址

例:
import urllib.request
f = urllib.request.urlopen(“https://www.baidu.com”)
print(f.getcode()) #200
print(f.geturl()) #https://www.baidu.com

状态码:
1** 信息,服务器收到请求,需要请求者继续执行操作
2** 成功,操作被成功接收并处理
3** 重定向,需要进一步的操作以完成请求
4** 客户端错误,请求包含语法错误或无法完成请求
5** 服务器错误,服务器在处理请求的过程中发生了错误

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值