爬虫
文章平均质量分 93
爬虫学习笔记
吗喽也是命
所有文章均为个人学习笔记
展开
-
爬虫学习-基础库的使用(urllib库)
一、urllib库介绍urllib是Python的内置的HTTP请求库,不需要另外下载,可直接使用。urllib库包含以下四个模块:最基本的HTTP请求模块。可以模拟请求的发送。就像在浏览器李输入网址然后按下回车一样,只需要给库方法传入URL以及额外的参数,就可以发送请求的过程了。异常处理模块。如果出先请求异常,那么我们可以捕获这些异常,然后进行重试或其他操作以保证程序运行不会意外停止。工具模块。提供了许多URL的处理方法,例如拆分、解析、合并等。原创 2023-12-09 16:18:03 · 544 阅读 · 1 评论 -
爬虫学习-基础(HTTP原理)
Cookie 里有信息标识了我们所对应的服务器的会话,每次浏览器在请求该站点的页面时,都会在请求头中加上 Cookie 并将其发送给服务器,服务器通过Cookie 识别出是我们自己,并且查出当前状态是登录状态,所以返回结果就是登录之后才能看到的网页内容。但在HTTP2.0中,由于有了二进制分帧技术的加持, HTTP 2.0不用再以 TCP 连接的方式去实现多路并行了,客户端和服务器可以将HTTP消息分解为互不依赖的帧,然后交错发送,最后再在另一端把它们重新组装起来,达到以下效果。原创 2023-12-02 17:48:40 · 1601 阅读 · 1 评论