Python爬虫入门教程（非常详细）_python爬虫自学

最新推荐文章于 2024-08-22 17:36:33 发布

rr8f2haQf

最新推荐文章于 2024-08-22 17:36:33 发布

阅读量1.4k

点赞数 22

文章标签： python 爬虫 javascript

本文链接：https://blog.csdn.net/rr8f2haQf/article/details/138251926

版权

本文介绍了Python爬虫的基本流程，包括发起请求、获取响应、解析内容和保存数据。通过爬虫实例展示了如何使用Python的requests和BeautifulSoup库。此外，还提供了Python爬虫学习路线、书籍、工具包合集、面试题以及实战项目资源。

摘要由CSDN通过智能技术生成

设k值为3，即每抓取3个页面后，重新计算一次PageRank值。

已知有{1,2,3}这3个网页下载到本地，这3个网页包含的链接指向待下载网页{4,5,6}（即待抓取URL队列），此时将这6个网页形成一个网页集合，对其进行PageRank值的计算，则{4,5,6}每个网页得到对应的PageRank值，根据PageRank值从大到小排序，由图假设排序结果为5,4,6，当网页5下载后，分析其链接发现指向未知网页8，这时先给未知网页8一个临时的PageRank值，如果这个值大于网页4和6的PageRank值，则接下来优先下载网页8，由此思路不断进行迭代计算。

5.OPIC策略

此算法其实也是计算页面重要程度。在算法开始前，给所有页面一个相同的初始现金（cash）。当下载了某个页面P之后，将P的现金分摊给所有从P中分析出的链接，并且将P的现金清空。对于待抓取URL队列中的所有页面按照现金数大小进行排序。

6.大站优先策略

对于待抓取URL队列中的所有网页，根据所属的网站进行分类。待下载页面数多的网站优先下载。

二、爬虫的基本流程

首先简单了解关于Request和Response的内容：

Request：浏览器发送消息给某网址所在的服务器，这个请求信息的过程叫做HTTP Request。

Response:服务器接收浏览器发送的消息，并根据消息内容进行相应处理，然后把消息返回给浏览器。这个响应信息的过程叫做HTTP Response。浏览器收到服务器的Response信息后，会对信息进行相应处理，然后展示在页面上。

根据上述内容将网络爬虫分为四个步骤：

1.发起请求：通过HTTP库向目标站点发起请求，即发送一个Request，请求可以包含额外的headers等信息，等待服务器响应。

常见的请求方法有两种，GET和POST。get请求是把参数包含在了URL（Uniform Resource Locator,统一资源定位符）里面，而post请求大多是在表单里面进行，也就是让你输入用户名和秘密，在url里面没有体现出来，这样更加安全。post请求的大小没有限制，而get请求有限制，最多1024个字节。

2.获取响应内容&#x