01_爬虫基础知识和requests模块简介

疋瓞

已于 2023-06-04 21:32:10 修改

阅读量1.1k

点赞数

分类专栏： python爬虫文章标签：爬虫 python 开发语言

于 2023-06-04 21:31:34 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sz1125218970/article/details/131036651

版权

本文介绍了爬虫的基础知识，包括爬虫的作用、分类和安全知识，以及爬虫的爬取流程。强调了前端基础，如HTML、CSS和JS的作用，并推荐了谷歌浏览器的开发者工具。此外，详细讲解了Python的requests模块，用于向网页发送请求并获取响应。最后，给出了一个简单的任务，使用requests获取百度热搜内容，提示了网络代理和正则表达式的应用。

摘要由CSDN通过智能技术生成

爬虫基础知识

1、爬虫简介：

爬虫的作用：帮助我们把网站信息快速提取并保存
爬虫的分类：
- 通用爬虫
- 聚集爬虫
爬虫的安全知识：目前来说，无明确法律规定，但每个官网都有自己的爬虫协议（网址后面加/robots.txt）
爬虫的爬取流程：
- 1、获取网页
- 2、提取信息
- 3、保存数据

2、爬虫必须了解的前端基础：

HTML是超文本标记语言，主要负责写网页内容，CSS是用来装饰网页的，JS是用来写网页逻辑的。
HTML中有两类标签：
- 1、一般标签：在标签内可以添加属性，在标签之间可以写其他标签或内容，如：h1标签
- 2、自闭合标签：只有一个标签，只能在标签内加属性，如：img标签
网页分类：静态网页（数据内容一般在HTML中），动态网页（通过js使网页连接数据库）
谷歌浏览器的“开发者工具”无疑是最方便的打开方式：打开谷歌浏览器，右击选择检查
谷歌浏览器查看网页源代码也非常方便：如上&#

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。