![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
反爬虫
Felix-微信(Felixzfb)
字节跳动数据分析工程师,个人微信AXiaShuBai。加微信,进Python小伙伴群。
展开
-
Charles 抓包工具安装( Windows 和安卓系统) SSL代理设置
Charles 抓包工具安装及使用Charles 原理首先将 Charles 运行在自己的 PC 上,Charles 运行的时候会在 PC 的 8888 端口开启一个代理服务,这个服务实际上是一个 HTTP/HTTPS 的代理。确保手机和 PC 在同一个局域网内,我们可以使用手机模拟器通过虚拟网络连接,也可以使用手机真机和 PC 通过无线网络连接。设置手机代理为 Charles 的代理地址,这样手机访问互联网的数据包就会流经 Charles,Charles 再转发这些数据包到真实的服务原创 2020-08-11 16:59:42 · 4190 阅读 · 0 评论 -
Hook 钩子技术及代码注入的 3 种方式
Hook 技术介绍Hook 技术中文又叫作钩子技术,它就是在程序运行的过程中,对其中的某个方法进行重写,在原有的方法前后加入我们自定义的代码。相当于在系统没有调用该函数之前,钩子程序就先捕获该消息,可以先得到控制权,这时钩子函数便可以加工处理(改变)该函数的执行行为。通俗点来说呢,比如我要 Hook 一个方法 funA,可以先临时用一个变量存一下,把它存成 A,然后呢,我再重新声明一个新的方法 funB,里面添加自己的逻辑,比如加点调试语句、输出语句等等,然后在新的方原创 2020-08-09 12:49:04 · 6255 阅读 · 3 评论 -
Python 反爬虫——信息验证
文中案例参考 GitHub项目2 信息验证型反爬虫2.1 User-Agent反爬虫User-Agent是用户身份识别的重要信息,User-Agent中包含用户浏览器、浏览器引擎、操作系统等信息python的requests库请求时候,服务器读取到的User-Agent信息就是 python-requests/2.21.0User-Agent反爬虫:nginx中加入User-Agent检测,将python,Java,PHP等一些关键词都加入到黑名单中检测时候,发现含有这些关键词,就认定为是原创 2020-06-26 11:59:07 · 727 阅读 · 0 评论 -
Python 反爬虫——文本混淆反爬虫
文中案例参考 GitHub项目4 文本混淆反爬虫4.1 图片伪装为文字反爬虫有些文字内容实际是图片伪装的提取图片的内容(图片请求响应结果res.content就是图片的字节数据,可以直接write为图片对象,也可以打开为图片对象,看案例)图片对象使用光学字符识别技术(pytesseract库)从图片中提取文字PyTesseract缺点:只能识别出一些清晰工整的图像中的文字,扭曲的文字或者有其它颜色图片干扰信息时候识别不准确参考案例001(02文件夹中)4.2 CSS偏移反爬虫一般用于原创 2020-06-26 11:56:24 · 1068 阅读 · 0 评论