python爬虫复习总结1

最新推荐文章于 2022-12-25 13:37:00 发布

qq_43069517

最新推荐文章于 2022-12-25 13:37:00 发布

阅读量369

点赞数

文章标签：爬虫

本文链接：https://blog.csdn.net/qq_43069517/article/details/100651515

版权

这篇博客总结了Python爬虫的基础知识，包括网络请求的原理和使用，如TCP/UDP协议的区别，以及urllib模块的Request和Response对象。还介绍了如何处理HTTP错误和URL的解析与编码。此外，简要提到了正则表达式在爬虫中的应用。

摘要由CSDN通过智能技术生成

* 基本库的使用

	* urllib

1.发送请求
2.处理异常模块
3.parse解析模块的使用
4.自定义handler
5.robot协议介绍
* requests网络请求库的使用(get、post请求、文件上传、cookies会话维持，代理设置)

* 正则表达式：

	* 匹配规则表、贪婪非贪婪、修饰符、转义匹配
	* compile
	* match
	* search
	* findall
	* sub
	* split

网络爬虫（又被称为网页蜘蛛，网络机器人）, 是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

通俗的讲：就是模拟客户端发起网络请求，接收请求的响应，按照一定的规则，自动的抓取互联网信息的程序。原则上只要浏览器能够做的事情，爬虫都能够实现
百度百科：网络爬虫介绍
https://baike.baidu.com/item/网络爬虫

目的：OSI 七层模型通过七个层次化的结构模型使不同的系统不同的网络之间实现可靠的通讯，因此其最主要的功能就是帮助不同类型的主机实现数据传输

应用层:

表示层:

关注