Urllib库实战

urllib基础
要系统学习urllib模块,需要先学习基础的urllib,下面会提到urlretrieve(),urlcleanup(),info(),getcode(),geturl()等

urlretrieve()获取某个网页写入内存中,下面爬取豆瓣首页:(可以不赋值data)


urlcleanup()清除内存,info()返回当前环境信息,如下:


getcode()是当前网页的状态码,200为正常,403即找不到网页,geturl()返回当前网页地址,代码如下:



超时设置
根据自己的需要设置访问一个网页时间,爬取网页中内容:比如我们这里设置一秒,爬取豆瓣首页

这里简单介绍一下异常处理:比如连续一百次访问豆瓣(ps:我这里没有出现异常)

出现异常的例子数值如下:


自动模拟HTTP请求

这里主要讲post和get两种,用于登录和搜素某些信息:
get请求
比如打开网页,搜索python,分析地址发现可以去掉一些无关字段,

依然可以访问原来地址,页面无变化,所以  https://www.sogou.com/tx?query=python     
红色部分 是搜索内容可以替换为其他关键词
为模拟get请求

下面输入关键字 java
代码及其输出结果:

打开结果

如果关键字为 人工智能
需要编码一下,具体如下:


结果如下:


post请求
比如登录新浪网站获取登录后的网址:


这里涉及到网站防反扒机制之验证码处理情况,所以内容比较多!
望各位见谅,想要了解可以私信我,我会为各位一一解答!





  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值