![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python-spider
Bronya9425
这个作者很懒,什么都没留下…
展开
-
HTTP与Socket
一,HTTP与HTTPS应用架构c/s 即 client server 客户端 服务端b/s 即 browser server 浏览器 服务端m/s 即 mobile server 移动端 服务端HTTPS协议http协议是基于tcp/ip协议的,而https是在http协议的基础之上,再加了一层SSL/TLS协议,数据在传输过程中是加密的HTTPS协议的默认端口是44...原创 2019-08-28 19:27:11 · 125 阅读 · 0 评论 -
点触验证码识别
点触验证码随着爬虫,反爬技术的升级,优秀的web开发工程师又相处了更变态的验证码。那就是点触验证码!例如最著名的,连人类有时候都识别不出来的,12306网站的验证码。一、点触验证码的原理点触验证码的设计原理是给出一张复杂的图片,根据图片上的指示,点击图片特点区域。前端通过js收集点击坐标,后台进行校验,更变态一点的还要求,点击顺序。例如下面这些:二、解决思路图像识别,人工智能,may...原创 2019-08-28 20:10:23 · 1679 阅读 · 0 评论 -
字符型验证码识别
字符型验证码一、验证码简介1.什么是验证码在开发爬虫的过程中会遇到一种常见的反爬措施,验证码。验证码(CAPTCHA)是“Completely Automated Public Turing test to tell Computers and Humans Apart”(全自动区分计算机和人类的图灵测试)的缩写,是一种区分用户是计算机还是人的公共全自动程序。2.验证码种类验证码自面世以...原创 2019-08-28 20:03:59 · 875 阅读 · 0 评论 -
滑动验证码识别
滑动验证码一、介绍现在出现了一种通过用户鼠标移动滑块来填补有缺口图片的验证码,我们叫做滑动验证码。它的原理很简单,首先生成一张图片,然后随机挖去一块,在页面展示被挖去部分的图片,再通过js获取用户滑动距离,以及坐标等信息到后台进行校验。只要用户移动的距离符合,以及移动的轨迹行为检测通过即可视为验证通过。解决思路目前这种验证码的通用解决思路如下:获取验证码图片,包含原图以及有缺口的图算...原创 2019-08-28 20:03:00 · 1760 阅读 · 0 评论 -
Python图像处理-Pillow
Python图像处理-Pillow简介Python传统的图像处理库PIL(Python Imaging Library ),可以说基本上是Python处理图像的标准库,功能强大,使用简单。但是由于PIL不支持Python3,而且更新缓慢。所以有志愿者在PIL的基础上创建了一个分支版本,命名为Pillow,Pillow目前最新支持到python3.6,更新活跃,并且增添了许多新的特性。所以我们...原创 2019-08-28 19:59:26 · 250 阅读 · 0 评论 -
Selenium-python
Selenium-python有时web页面太复杂,无法找到API请求。这是我们就可以使用selenium了。一、Selenium-python模块1.selenium介绍selenium是一个自动化的浏览器。你如何运用它完全取决于你自己。它主要用于自动化web应用程序以进行测试,但当然不限于此。无聊的基于web的管理任务也可以(而且应该)自动化。Selenium得到一些最大的浏览器供应...原创 2019-08-28 19:49:49 · 199 阅读 · 0 评论 -
js调试-Weibo登录案例
js调试Weibo登录案例1.分析流程手动操作流程访问首页https://weibo.com输入用户名和密码点击登录如果有验证码,就输入验证码验证成功跳转到微博首页面请求流程分析过程根据上面的手动操作流程,我们要分析出网站的http请求逻辑。1.首页面请求分析首先,打开谷歌浏览器开发者调试工具,查看在请求首页面时,请求回的响应是否包含cookie,也即是看首页面的响应头...原创 2019-08-28 19:47:18 · 340 阅读 · 0 评论 -
常见加密方式
常见加密方式前言数据加密与解密通常是为了保证数据在传输过程中的安全性,自古以来就一直存在,古代主要应用在战争领域,战争中会有很多情报信息要传递,这些重要的信息都会经过加密,在发送到对应的人手上。现代 ,在网络发展初期,网络的数据安全性是没有被足够的重视的。事实上,当时为了实现数据可以通过网络进行传输已经耗费了科学家大部分脑细胞,因此在TCP/IP协议设计的初期,他们也实在没有太多精力去过多考...原创 2019-08-28 19:36:17 · 1985 阅读 · 0 评论 -
urllib和urllib3
urllib和urllib3urllib库urllib 是一个用来处理网络请求的python标准库,它包含4个模块urlib.requests:请求模块,用于发起网络请求urlib.parse:解析模块,用于解析URLurlib.error:异常处理模块,用于处理request引起的异常urllib.robotparse:用于解析robots.txt文件###urlib.r...原创 2019-08-28 19:27:51 · 327 阅读 · 0 评论 -
字体反爬
字体反爬1.字体反爬概述随着css技术的发展,在CSS3中出现了一个自定义字体的新特性。在这之前,web设计师必须使用已在用户计算机上安装好的字体。现在,通过CSS3,web设计师可以使用它们喜欢的任意字体。浏览器会下载字体信息,然后动态渲染,html页面源码中,你看到的不再是正常字符, 或者unicode而是网站使用的自定义编码。因此它也被拿来作为一种反爬的手段,这就是字体反爬。2.案例...原创 2019-08-28 20:14:14 · 415 阅读 · 0 评论