其实很多的网站也陆陆续续开始使用非人道反爬来限制爬虫了,常见的css反爬,字体反爬(就是页面源码显示什么乱七八糟的文字,但是在用户面前还是显示正常的,比如1 在源码显示可能是或者其他类似这样的字符),还有svg(数字变成svg的小图片,比较出名的有大众点评),js混淆加密,base64编码,sha1加密等等,恶心的要死(加密的代码还放的贼隐蔽,我吐了).
今天我所带来的就是关于大众或者http://www.porters.vip/confusion/food.html这个别人的demo.里面的svg的破解.
主要是总结!!!!
今天的案例就是http://www.porters.vip/confusion/food.html这个url上的demo数据作为起始点.
不多说上解密代码:
from lxml import etree #这个string里面的就是 http://www.porters.vip/confusion/food.html demo的 svg数据 string = """ <?xml version="1.0" encoding="UTF-8" standalone="no"?> <!DOCTYPE svg PUBLIC "-//W3C//DTD SVG 1.1//EN" "http://www.w3.org/Graphics/SVG/1.1/DTD/svg11.dtd"> <svg xmlns