![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 72
闲欢
我不是逗你玩~
展开
-
Python日常-女神要减肥,我打辅助!
一个蝉鸣沉醉的晚上,我和女神坐在沙发上,呆呆地看着鱼缸里的小鱼儿自由自在地游来游去。突然,女神摸着自己的肚子,惊叹一声:哇!三个月大了!我怔了一下,急切地问道:啥时候的事?怎么不告诉我?“就这几个月呀!不知不觉就长了这么多膘!”“我靠!我还以为你有了!”女神嘤嘤地锤着我的胸,喊着要减肥!“没问题,我助你!”所谓“管住嘴,迈开腿!”减肥也是有方法论的,我们要用科学的方法减肥。管住嘴,不是不吃,而是要保证每天摄入的能量小于每天消耗的能量。我还在说着方法论,女神已经打开手机,在网上搜减肥食谱了,看原创 2021-06-08 23:13:16 · 83 阅读 · 0 评论 -
爬虫实战之Scrapy模拟登陆
想爬取网站数据?先登录网站!对于大多数大型网站来说,想要爬取他们的数据,第一道门槛就是登录网站。下面请跟随我的步伐来学习如何模拟登陆网站。为什么进行模拟登陆?互联网上的网站分两种:需要登录和不需要登录。(这是一句废话!)那么,对于不需要登录的网站,我们直接获取数据即可,简单省事。而对于需要登录才可以查看数据或者不登录只能查看一部分数据的网站来说,我们只好乖乖地登录网站了。(除非你直接黑进人...原创 2019-12-01 18:26:44 · 572 阅读 · 0 评论 -
图像处理库 pillow应用-验证码去噪
前面我们学习了 Python 的图像处理库 PIL,学会了一些相关的图像处理方法,好多人心里会问:有什么用呢?这一节我们就拿实际的例子来回答大家。识别验证码的原理现在大多数网站登录不再是简单地输入用户名密码了,一般都伴随着此二者之外的验证手段,目的是阻止一些居心不良的行为。而图片验证码是其中一种比较常用的手段。所谓道高一尺魔高一丈,在 IT 行业中,对于这种安全防守,肯定会有针对性地破解势力...原创 2019-11-28 19:13:58 · 971 阅读 · 0 评论 -
爬虫介绍
作为程序员,相信大家对“爬虫”这个词并不陌生,身边常常会有人提这个词,在不了解它的人眼中,会觉得这个技术很高端很神秘。不用着急,我们的爬虫系列就是带你去揭开它的神秘面纱,探寻它真实的面目。爬虫是什么网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。通俗地讲,我们把互联网比作一张大蜘...原创 2019-11-28 18:45:18 · 321 阅读 · 0 评论 -
Scrapy入门使用
为了体验 Scrapy 的强大功能,我们必须安装使用才知道。本章为大家讲述 Scrapy 的安装和入门使用。Scrapy 的安装和其他包的安装方法一样,我们使用 pip 来安装 Scrapy 框架:pip install scrapy安装完成之后,我们使用 scrapy 命令来测试是否安装成功:如果出现图中的内容,即表示安装成功了。Scrapy 的使用Scrapy 的使用分为...原创 2019-11-28 18:40:21 · 185 阅读 · 0 评论 -
Scrapy介绍
在爬虫技术中,我们使用 Requests 和 Selenium 可以解决80%的需求,那么为什么我们还需要学习 Scrapy 框架呢?因为它可以使我们的爬虫更快、更强。Scrapy 的基本概念我们来看下官方文档的定义:Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 其最初是为了 页面抓取 (更确切...原创 2019-11-28 18:39:36 · 1336 阅读 · 0 评论 -
Selenium详解
Selenium 环境配置好之后,我们就可以使用 Selenium 来操作浏览器,做一些我们想做的事情了。在我们爬取网页过程中,经常发现我们想要获得的数据并不能简单的通过解析 HTML 代码获取,这些数据是通过 AJAX 异步加载方式或经过 JS 渲染后才呈现在页面上显示出来。这种情况下我们就可以使用 Selenium 来模拟浏览器浏览页面,进而解决 JavaScript 渲染的问题。浏览器设...原创 2019-11-28 18:38:58 · 272 阅读 · 0 评论 -
Selenium环境配置
如果你做过 Web 测试的工作,那么你应该明白 Web 测试中最重要的一部分工作就是自动化测试。自动化测试,顾名思义就是让浏览器自动运行,而无需手动操作。这和我们爬虫工作原理有些相似,我们爬虫也需要让浏览器运行网址来获取我们需要的内容。所以我们今天来介绍一款自动化测试工具—— Selenium ,并将它运用到爬虫中来。什么是 Selenium我们首先来看看百度上搜索 selenium 的结果...原创 2019-11-28 18:38:23 · 699 阅读 · 0 评论 -
PyQuery 详解
PyQuery 库是一个非常强大又灵活的网页解析库,如果你有前端开发经验,那么你应该接触过 jQuery ,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严格实现,语法与 jQuery 几乎完全相同。安装跟安装其他库一样:>>> pip3 install pyquery安装了之后,在程序里面就可以引用了,引用方法跟其他...原创 2019-11-28 18:37:32 · 307 阅读 · 0 评论 -
Requests的高级特性
上一篇我们介绍了 Requests 库的基本用法,学会之后大家就可以应付一般的请求了。这一篇我们接着介绍 Requests 的高级用法,以便应付一些棘手的问题。会话维持在 requests 中,直接使用 get() 或 post() 方法确实可以做到模拟网页的请求,但是这实际上是两个不同的会话,相当于用了两个浏览器打开不同的页面,而这两个页面是不共享 cookies 的。会话维持相当于打在原...原创 2019-11-28 18:36:19 · 254 阅读 · 0 评论 -
Requests的基本用法
介绍首先让我们来看 Requests 官方的介绍:Requests is an elegant and simple HTTP library for Python, built for human beings.翻译过来就是:Requests 是为人类写的一个优雅而简单的 Python HTTP 库。这个介绍很直白了,让我们先来感受一下 Requests 的威力。import requ...原创 2019-11-28 18:34:01 · 716 阅读 · 0 评论