Python这么火，却还面临3个问题？你知道吗

最新推荐文章于 2020-11-20 18:38:37 发布

python爬虫学习

最新推荐文章于 2020-11-20 18:38:37 发布

阅读量373

点赞数

分类专栏： python基础 python爬虫 python入门 python

本文链接：https://blog.csdn.net/qq_39363022/article/details/87994594

版权

python 同时被 3 个专栏收录

143 篇文章 6 订阅

订阅专栏

python爬虫

135 篇文章 2 订阅

订阅专栏

python入门

132 篇文章 1 订阅

订阅专栏

前言

传统的爬虫程序从初始网页的一个或多个URL开始，并获取初始网页的URL。在对网页进行爬行的过程中，它不断地从当前网页中提取新的URL并将其放入队列中，直到满足系统的某些停止条件为止。聚焦爬虫的工作流程是复杂的。根据一定的网页分析算法，对与主题无关的链接进行过滤，保留有用的链接，并将它们放入等待的URL队列。
我们来看看后台面临的问题

问题一：交互问题

有些网页往往需要与用户进行一些交互，然后进入下一步，如输入验证代码、拖动滑块、选择几个汉字。网站之所以这样做，往往是为了验证访问者是人还是机器。
爬虫程序很难处理这种情况。传统的简单图片验证码可以通过图形处理算法读取内容。但是随着模式的多样性和多样性，越来越多的人和神都愤怒和不正常的验证码（尤其是买火车票时，他们想每分钟都爆发出粗口）。这个问题越来越严重。

小编推荐一个学python的学习qun 740322234
无论你是大牛还是小白，是想转行还是想入行都可以来了解一起进步一起学习！裙内有开发工具，很多干货和技术资料分享！

问题2:javascript解析

如前所述，javascript可以动态生成dom。目前，大多数网页都属于动态网页（内容由javascript动态填充），特别是在移动端，SPA/PWA应用越来越流行。网页中最有用的数据是通过Ajax/Fetch动态获取的，然后由JS填充到DOM树中。简单的HTML静态页面中几乎没有有用的数据。
目前，主要的解决方案是直接为JSAjax/Fetch请求请求Ajax/Fetch的URL，但也有一些Ajax请求参数依赖于javascript动态生成，如请求签名、密码加密等。
如果你使用后台脚本来做javascript所做的事情，你需要清楚地理解原始网页代码的逻辑，这不仅非常麻烦，而且也会使你的爬行代码非常庞大，但更致命的是，javascript所能做的一些事情很难甚至不可能被模仿，例如一些网站使用拖动滑块到某个位置。在爬虫系统中，很难模拟验证码机制。
事实上，总而言之，这些缺点最终是由于爬虫不是浏览器，也没有JavaScript解析引擎。为了解决这个问题，主要的策略是在爬虫中引入JavaScript引擎，比如Phantom JS，但是它有明显的缺点，比如当服务器同时有多个爬行任务时，资源太多。
更重要的是，这些无窗口的javascript引擎通常不像在浏览器环境中那样被使用。当一个页面跳进去时，这个过程很难控制。

问题三：IP限制