Python: 网络爬虫 -2

原文来自FishC

1) urlopen()方法中有一个可选参数timeout,用于设置连接的超时时间,单位秒;

2)如何从urlopen()的返回对象中获取http状态码:

resp=urllib.request.urlopen(url)
code=response.getcode()

3)在客户端和服务器之间进行请求-响应时,常用GET,POST;

4)User-Agent属性记录的是:提供用户所使用的浏览器类型,操作系统,浏览器内核等信息标识;

5)URLopen()函数有一个data参数,如果给这个参数赋值,那么http的请求就是使用POST方式,如果data值为NULL,也就是使用默认值,那么HTTP的请求就是使用GET方式;

6)编码转换:字符串的decode方法是将其它编码的字符串转换成unicode编码,相反,encode方法是将unicode编码转换成其它编码的字符串;

7)JSON:轻量级的数据交换格式,就是用字符串把python的数据结构封装起来,便于存储和使用;




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值