Urllib库实战

最新推荐文章于 2023-02-16 11:19:18 发布

sc_spider

最新推荐文章于 2023-02-16 11:19:18 发布

阅读量222

点赞数 1

分类专栏： python 文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shuchao7/article/details/80886455

版权

python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

urllib基础

要系统学习urllib模块，需要先学习基础的urllib，下面会提到urlretrieve(),urlcleanup(),info(),getcode(),geturl()等

urlretrieve()获取某个网页写入内存中，下面爬取豆瓣首页：（可以不赋值data）

urlcleanup()清除内存，info()返回当前环境信息，如下：

getcode()是当前网页的状态码，200为正常，403即找不到网页，geturl()返回当前网页地址,代码如下：

超时设置

根据自己的需要设置访问一个网页时间，爬取网页中内容：比如我们这里设置一秒，爬取豆瓣首页

这里简单介绍一下异常处理：比如连续一百次访问豆瓣（ps：我这里没有出现异常）

出现异常的例子数值如下：

自动模拟HTTP请求

这里主要讲post和get两种，用于登录和搜素某些信息：

get请求

比如打开网页，搜索python，分析地址发现可以去掉一些无关字段，

依然可以访问原来地址，页面无变化，所以 https://www.sogou.com/tx?query=python

红色部分是搜索内容可以替换为其他关键词

即为模拟get请求

下面输入关键字 java

代码及其输出结果：

打开结果

如果关键字为人工智能

需要编码一下，具体如下：

结果如下：

post请求

比如登录新浪网站获取登录后的网址：

这里涉及到网站防反扒机制之验证码处理情况，所以内容比较多！

望各位见谅，想要了解可以私信我，我会为各位一一解答！

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Urllib库实战

urllib基础要系统学习urllib模块，需要先学习基础的urllib，下面会提到urlretrieve(),urlcleanup(),info(),getcode(),geturl()等urlretrieve()获取某个网页写入内存中，下面爬取豆瓣首页：（可以不赋值data）urlcleanup()清除内存，info()返回当前环境信息，如下：getcode()是当前网页的状态码，200为正常...
复制链接

扫一扫

专栏目录

sc_spider CSDN认证博客专家 CSDN认证企业博客

码龄7年

2: 原创

96万+: 周排名

106万+: 总排名

1376: 访问

: 等级

36: 积分

0: 粉丝

1: 获赞

1: 评论

0: 收藏

私信

关注

热门文章

分类专栏

python 2篇

最新评论

爬虫爬取豆瓣出版社
Tj、杰兰特: 现在这个网页反爬，爬不了了。

最新文章

爬虫爬取豆瓣出版社

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。