Python
文章平均质量分 89
锦荣z
这个作者很懒,什么都没留下…
展开
-
Python爬虫学习( 四 )——Ajax数据爬取
Python之Ajax数据爬取引言 有时候我们在用requests抓取网页的时候,得到的结果可能和在浏览器中看到的不一样:在浏览器中可以看到正常显示的页面数据,但是使用requests得到的结果并没有。 这是因为requests获取的数据都是原始的HTML文档,而浏览器中的页面则是经过 JavaScript 处理数据后生成的结果,这些数据的来源有很多种,可能是通过 Ajax 加载的,可能是包含在 HTML 文档中的,也可能是经过 JavaScript 和特定算法计算后生成的。 对于第一种情况,原创 2021-01-21 16:27:01 · 735 阅读 · 2 评论 -
Python爬虫学习( 三 )——代理
Python爬虫学习( 三 )——代理代理的基本原理 我们在做爬虫的过程中经常会遇到这样的情况,最初爬虫正常运行,正常抓取数据,一切看起来都是那么美好,然而一杯茶的功夫就可能出现错误。 比如403 Forbidden——服务器拒绝此请求,那时候打开网页一看,可能会看到" 您的IP访问频率太高 "这样的提示。出现这种现象的原因是网站采取了一些反爬虫措施。 比如,服务器会检测某个IP在单位时间内的请求次数,如果超过了这个阈值,就会直接拒绝服务,返回一些错误信息,这种情况可以称为封IP。 既原创 2021-01-08 10:44:21 · 395 阅读 · 0 评论 -
Python爬虫学习( 二 )——会话和Cookies
Python爬虫学习( 二 )Python爬虫的基本原理 我们可以把互联网比作一张大网,而爬虫( 即网络爬虫 )便是在网上爬行的蜘蛛。把网的节点比作一个个网页,爬虫爬到这就相当于访问了该页面,获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系,这样蜘蛛通过一个节点后,可以顺着节点连线继续爬行到达下一个节点,即通过一个网页继续获取后续的网页,这样整个网的节点便可以被蜘蛛全部爬行到,网站的数据就可以被抓取下来了。爬虫概述 简单来说,爬虫就是获取页面并提取和保存信息的自动化程序。 1原创 2021-01-07 21:34:31 · 501 阅读 · 2 评论 -
Python爬虫学习( 一 )——请求和响应
Python爬虫学习( 一 )Web大致有三层客户端:访问远程网站;服务端:为网站和Web API 提供数据;Web API 和服务:用另一种不同于可视化网页的方式来交换数据。互联网最底层的网络传输使用的是:传输控制协议 / 因特网协议,更常用的叫法是TCP/IP。TCP/IP 因特网是基于规则的,这些规则定义了如何创建连接、交换数据、中止连接、处理超时等,这些规则被称为协议。 它们被分布在不同的层中,分层的目的是兼容多种实现方法,你可以在某一层中做任何想做的事情,只要遵循上一个原创 2021-01-07 19:06:38 · 3007 阅读 · 9 评论