网络爬虫的入门学习
本总结基于b站学传送门
爬虫基本的几个模块

requests库

发送request请求
url:要下载的目标网页的url
params:字典形式,设置url后面的参数,比如?id=123&name=xiaoming
data:字典或者字符串,一般用于POST方法提交数据
header:设置user-agent、refer等请求头,来假装是一个真实的用户在进行访问网页
timeout:超时时间,单位是秒
verify:True/False,是否进行HTTPs证书验证,默认是,需要自己设置证书地址
allow_redirects:True/False是否让requests做重定向处理,默认是
cookies:附带本地的cookies数据

这篇博客总结了Python爬虫的基础学习,包括使用requests库发送HTTP请求和接收响应,理解URL管理器的作用,以及如何利用Beautiful Soup解析HTML网页。通过学习,可以掌握爬虫的基本工作流程和数据提取技巧。
最低0.47元/天 解锁文章

2873

被折叠的 条评论
为什么被折叠?



