urllib基础
要系统学习urllib模块,需要先学习基础的urllib,下面会提到urlretrieve(),urlcleanup(),info(),getcode(),geturl()等
urlretrieve()获取某个网页写入内存中,下面爬取豆瓣首页:(可以不赋值data)
urlcleanup()清除内存,info()返回当前环境信息,如下:
getcode()是当前网页的状态码,200为正常,403即找不到网页,geturl()返回当前网页地址,代码如下:
超时设置
根据自己的需要设置访问一个网页时间,爬取网页中内容:比如我们这里设置一秒,爬取豆瓣首页
这里简单介绍一下异常处理:比如连续一百次访问豆瓣(ps:我这里没有出现异常)
出现异常的例子数值如下:
自动模拟HTTP请求
这里主要讲post和get两种,用于登录和搜素某些信息:
get请求
比如打开网页,搜索python,分析地址发现可以去掉一些无关字段,
依然可以访问原来地址,页面无变化,所以 https://www.sogou.com/tx?query=python
红色部分
是搜索内容可以替换为其他关键词
即
为模拟get请求
下面输入关键字 java
代码及其输出结果:
打开结果
如果关键字为 人工智能
需要编码一下,具体如下:
结果如下:
post请求
比如登录新浪网站获取登录后的网址:
这里涉及到网站防反扒机制之验证码处理情况,所以内容比较多!
望各位见谅,想要了解可以私信我,我会为各位一一解答!