![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
反爬
以梦为马越骑越傻
python
展开
-
selenum 极验滑动验证码 登录获取cookie
思路:1、selenum打开网页输入,点击登录弹出滑动验证码2、截取原始验证码图片和缺口验证码图片3、对比两张图片,获取缺口位置,计算缺口距离左边长度4、按算法进行滑动登录'''极验验证码滑动验证selenum实现'''import osimport sysimport timefrom io import BytesIOfrom selenium.webdriver.common.action_chains import ActionChainsfrom PIL原创 2020-12-02 15:38:50 · 284 阅读 · 1 评论 -
滑动拼图验证码
import osfrom selenium import webdriverimport timefrom scrapy.selector import Selectorimport re'''滑动拼图验证码1、打开selenum2、点击滑块,出现缺口和移动缺口的css里的left,可以计算滑动距离3、滑动滑块'''img_abs = os.path.join(os.path.dirname(os.path.abspath(__file__)), 'images')class T.原创 2020-12-16 13:15:18 · 1095 阅读 · 0 评论 -
普通滑动验证码模拟操作
import osfrom selenium import webdriverimport time'''普通滑动验证码模拟操作1、打开selenum2、根据css取出宽度来作为滑动距离3、控制滑动'''img_abs = os.path.join(os.path.dirname(os.path.abspath(__file__)), 'images')class TestCase(object): def __init__(self): self.url =.原创 2020-12-16 12:18:35 · 525 阅读 · 0 评论 -
webdriver反爬
'''webdriver反爬虫通过selenum操作会被浏览器识别是否为webdriver=true识别出来即判断为爬虫案例一:http://www.porters.vip/features/webdriver.html案例二:淘宝登录中https://login.taobao.com/member/login.jhtmlindex.js中存在如下验证:function r() { return "$cdc_asdjflasutopfhvcZLmcfl_"in u |.原创 2020-12-08 10:17:49 · 891 阅读 · 0 评论 -
反爬工具类Tool
import osfrom PIL import Imageimport ioimport pytesseractimport requestsfrom fake_useragent import UserAgentclass Tool: @classmethod def get_tool(cls): return cls() def get_user_agent(self,headers): ua = UserAgent() .原创 2020-12-07 22:14:09 · 127 阅读 · 0 评论 -
websocket反爬
'''websocket反爬 4.5抓取乐鱼体育1、获取token2、构建message3、websocket长连接'''from common.tools import Toolimport requestsimport jsonimport timeimport websocketclass LeYu: def __init__(self): self.tool = Tool.get_tool() def get_cookie(self):.原创 2020-12-07 21:10:57 · 550 阅读 · 0 评论 -
图片混淆反爬
'''图片混淆,对图片解析如果图片识别不准确,需要升级OCR库6.1'''from common.tools import Toolimport requestsfrom scrapy.selector import Selectorfrom urllib import parseclass ImgSpider: def __init__(self): self.tool = Tool.get_tool() def run(self): .原创 2020-12-07 21:09:54 · 2775 阅读 · 0 评论 -
cookies反爬虫
'''cookie反爬'''from common.tools import Toolimport requestsfrom scrapy.selector import Selectorfrom urllib import parseclass User_Agent: def __init__(self): self.tool = Tool.get_tool() def run(self): url = 'http://www.porters.原创 2020-12-07 21:07:21 · 389 阅读 · 0 评论 -
User-agent反爬
'''校园新闻网列表页User-agent反爬'''from common.tools import Toolimport requestsfrom scrapy.selector import Selectorclass User_Agent: def __init__(self): self.tool = Tool.get_tool() def run(self): url = 'http://www.porters.vip/verify/.原创 2020-12-07 21:06:13 · 186 阅读 · 0 评论 -
CSS偏移反爬
首先我们先了解一下什么是CSS偏移反爬虫: CSS偏移反爬虫指的是利用CSS样式将乱序的文字排版为人类正常阅读顺序的行为。当然这么说大家可能还是无法理解,那么为了能够让大家更加清楚的了解什么是CSS偏移反爬虫,在这里直接上图让大家看一下。 大家请看上图中的我圈出来的价格是¥950,这个价格正是我们正常浏览时在页面上看到的价格,这里我们按F12,然后在Elements面板中找到这个价格所对应的位置,正常情况下我们应该是直接看到950这个价格,或者是按顺序依次看到‘9’,‘5’,'0’这三个数字,...转载 2020-12-07 19:01:03 · 384 阅读 · 0 评论 -
SVG映射反爬
import requestsfrom scrapy import Selectorurl = 'http://www.porters.vip/confusion/food.html'response = requests.get(url)html = Selector(text=response.text)mappings = {'vhk08k': '0', 'vhk6zl': '1', 'vhk9or': '2', 'vhkfln': '3', 'vhkbvu': '4', .原创 2020-12-07 21:02:30 · 254 阅读 · 0 评论