爬虫学习笔记

最新推荐文章于 2024-07-18 17:05:27 发布

阿呆喜欢吃菜菜

最新推荐文章于 2024-07-18 17:05:27 发布

阅读量105

点赞数

文章标签： http 网络协议网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_53323118/article/details/125119640

版权

1.网络协议

1.1http协议：超文本传输协议，是一种发送和接收html页面的方法。（使用明文，不加密，不进行身份验证，可能遭遇伪装。）

1.2 https协议：http安全版，在http下面加入ssl层。（在应用层和传输层之间多了一个安全层，通信被加密，需要验证。）

2.请求

2.1 请求目标：URL

统一的资源定位符，类似于windows的文件路径。

举个例子：response=requests.get('http://www.wjy.la/10/10489/').

http:// 请求的协议类型（http/https)超文本传输协议（图片、网页、音频、视频）

www 服务器的名字（万维网）

wjy.la 域名

/ 服务器的根目录（资源在哪里）

10/10489/ 资源的位置

2.2 请求体 request

（在浏览器中查看请求体的信息：header）

请求告诉服务器这些内容：请求行，请求头部，空行，请求数据。

2.3 请求方法

（1）get请求：一般情况下，只从服务器获取数据，并不会对服务器资源产生任何影响。

（2) post请求：向服务器发送数据（登录）、上传文件等，会对服务器资源产生影响。

2.4 常用的请求报头(header)

header是浏览器给服务器发送的消息，服务器通过这里的消息鉴定我们的身份。

（1）accept :浏览器告诉服务器，自己接受什么类型的数据，文字，图片等。

（2）accept-charset:浏览器申明自己接受的语言。

（3）accept-encoding:浏览器申明自己接收的编码方法，通常指定压缩方法，是否支持压缩，支持什么压缩方法。

(4)user-agent:辨别浏览器版本

(5)cookie:为了辨别用户身份，在用户的客户端上保存的数据。

2.5 Network

Network的功能是：记录在当前页面上发生的所有请求。
只有比较老（或比较轻量）的网站，我们用requests和BeautifulSoup就能解决它们，而对于比较复杂的网站，关键信息都是在实时网页的请求中，我们需要找到被隐藏的数据请求，才能继续进行下一步。

json则是另一种组织数据的格式，和html一样，常用来做网络数据传输。
json和XHR之间的关系：XHR用于传输数据，它能传输很多种数据，json是被传输的一种数据格式。

3.beautiful soup

通过 requests 库已经可以抓到网页源码，接下来要从源码中找到并提取数据。Beautiful Soup 是 python 的一个库，其最主要的功能是从网页中抓取数据。Beautiful Soup 目前已经被移植到 bs4 库中，也就是说在导入 Beautiful Soup 时需要先安装 bs4 库。

阿呆喜欢吃菜菜

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
爬虫学习笔记

爬虫预备知识
复制链接

扫一扫

阿呆喜欢吃菜菜 CSDN认证博客专家 CSDN认证企业博客

码龄4年

23: 原创

134万+: 周排名

9万+: 总排名

1万+: 访问

: 等级

319: 积分

57: 粉丝

85: 获赞

16: 评论

88: 收藏

私信

关注

热门文章

分类专栏

深度学习 1篇
java学习 10篇

最新评论

解决OSError: [Errno 22] Invalid argument:报错
知晓天空之蓝的人152: 谢谢
医学图像处理：CT图像DCM文件转换成PNG文件，调整窗位和窗宽
CSDN-Ada助手: 恭喜您发布第19篇博客！医学图像处理方面的内容非常有价值，对于CT图像DCM文件转换成PNG文件，以及调整窗位和窗宽的技术分享让人受益匪浅。在下一步的创作中，或许可以尝试探讨一些实际应用场景下的案例分析，或者深入研究一些前沿的医学图像处理算法，以丰富读者的知识视野。期待您更多的精彩内容！
python代码实现在一个文件夹中新建与另一个文件夹中文件的名称数量相同的文件
CSDN-Ada助手: 恭喜您发布了第20篇博客！您的创作热情令人钦佩。接下来，我建议您可以尝试探索更多关于文件操作的主题，比如如何在Python中实现文件的复制、移动等操作。期待您的下一篇作品！继续加油哦！👏👏👏
python代码实现：选出一个文件夹中与另一个文件夹的重名文件
CSDN-Ada助手: 恭喜您写了第18篇博客！您的文章标题很吸引人，内容也很实用。希望您能继续保持写作的热情和动力，为大家分享更多有趣的内容。下一步，您可以考虑写一些关于Python代码实现其他功能的文章，让读者可以从您的博客中学到更多知识。期待您的下一篇作品！祝您创作顺利！
java的异常处理
CSDN-Ada助手: 恭喜您发布了第15篇博客“java的异常处理”！持续创作不易，您的努力和热情让我们受益良多。希望您在未来的创作中能够继续深入探讨java异常处理的相关知识，或者尝试结合实际案例进行分析，让读者更好地理解和应用。期待您更多精彩的内容，加油！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。