python爬虫实战1-基础代码篇1

最新推荐文章于 2024-08-22 13:13:36 发布

鹏鹏写代码

最新推荐文章于 2024-08-22 13:13:36 发布

阅读量472

点赞数 1

分类专栏： python 爬虫文章标签： python http

本文链接：https://blog.csdn.net/qq_44176343/article/details/107348043

版权

本文介绍了Python标准库urllib的基础用法，包括urlopen()的超时设置，模拟POST请求，伪装浏览器User-Agent，以及HTTP基本认证和Cookie登录。还探讨了异常处理中的except语句在爬虫中的应用。

摘要由CSDN通过智能技术生成

1.爬取百度贴吧内容

import urllib.request
url = "http://tieba.baidu.com"
response = urllib.request.urlopen(url)
html = response.read() #获取页面源代码
print(html.decode('utf-8')) #转换为utf-8

爬虫结果展示：
在这里插入图片描述
1.urllib是python标准库中用于网络请求的库，有四个模块，urllib.request、urllib.error、urllib.parse、urllib.robotparser.

urlopen() ：模拟浏览器发起HTTP请求，需要用到urllib.request模块，urllib.request不仅是发起请求，还能获取请求返回结果。

2.爬虫设置超时代码演示

在访问网页时常常会遇到这种情况，因为某些原因，如自己的计算机网络慢或者服务器压力大奔溃，导致请求是迟迟无法得到响应。应对这种情况，就需要我们在requests.urlopen()中通过timeout参数设置超时时间。

import urllib.request
url = "http://tieba.baidu.com"
response = urllib.request.urlopen(url,timeout=1)
print(response.read().decode("utf-8"))

爬虫结果展示：
在这里插入图片描述
4.data被转换成字节流，而data是一个字典，需要使用urllib.parse.urlencode( )将字典转换为字符串，再使用byte（）函数转换为字节流，最后使用urlopen（）发起请求，请求是模拟post方式提交表单数据。

字典转换成字节流

import urllib.parse
import urllib.request

data = bytes(urllib.parse.urlencode({
   'word':'hello'})

最低0.47元/天解锁文章

鹏鹏写代码

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录