在不改变桌面设置或硬件信息的基础上,让浏览器读到的分辨率就是自己设置的分辨率,通过hook-js就可以达到
<!DOCTYPE html>
<html>
<head>
</head>
<body>
<script>
var myScreen = {}; // create new screen object
// prefill with all properties of old object
for (var i in screen) {
myScreen[i] = screen[i];
}
screen = myScreen; // replace existing object with mine
screen.width = 1446; // change properites on mine
screen.height = 900;
screen.availablewidth=1441;
screen.availableheight=860;
</script>
<script>
document.write("浏览器withd:"+ screen.width)
document.write("<br />")
document.write("浏览器height:"+ screen.height)
document.write("<br />")
document.write("浏览器availablewidth:"+ screen.availablewidth)
document.write("<br />")
document.write("浏览器availableheight:"+ screen.availableheight)
</script>
</body>
</html>
该代码 Chrome和firefox都可以, ie好像有点不行。
那这个代码有什么用呢?分辨率是检测用户是否是新用户的一个指标, 比如通过浏览器访问要生成不同的UV, 爬虫防屏蔽,适当改变下分辨率是很有必要的。
具体怎么测试呢,可以用fiddler ,通过中间人截包修改。
- 安装fiddler
- 安装fiddlerScript(自行百度安装方法)
- 修改OnBeforeResponse函数
static function OnBeforeResponse(oSession: Session) {
if (m_Hide304s && oSession.responseCode == 304) {
oSession["ui-hide"] = "true";
}
if ( oSession.oResponse.headers.ExistsAndContains("Content-Type", "html")) {
oSession.oResponse.headers.Add("DEBUG1_WE_EDITED_THIS", "HERE");
oSession.utilDecodeResponse();
var oBody = System.Text.Encoding.UTF8.GetString(oSession.responseBodyBytes);
var oRegEx = oRegEx = /(<head>)/gi
oBody = oBody.replace(oRegEx, "<head><script type='text/javascript'> var myScreen = {}; for (var i in screen) { myScreen[i] = screen[i];}screen = myScreen; screen.width = 1440;screen.height = 900;screen.availWidth=1440;screen.availHeight=860;screen.colorDepth=32;</script>");
oSession.utilSetResponseBody(oBody);
}
}
那么具体可以做什么呢? 比如要写个多开浏览器, 要生成不同的UV, 爬虫防屏蔽等等。分辨率是很重要的一环。
做爬虫,或者是cnzz,百度统计这些判断是否是同一个用户,一般而言,PC端有几点标准: 1. cookies 2. user-agent 3. 分辨率+色深 4. ip 。 1. cookies, 最好是每个任务的cookie能隔离, 用完清掉,多线程间不要共用cookies 。 2. user-agent, 准备大量的真实的user-agent,一般网站日志后台可以解析出来。 3. 分辨率,主要是JS需要检测window.screenwidth window.sceenheight等属性来判断你是不是同一个用户 4. ip, 提取的ip可以做个ip过滤,用个几次就换,不要干太猛 。 真实点的情况下,甚至可以保存cookies, 对网站进行二次访问,相应的ip和user-agent也要配合起来。 5. 爬取的操作间隔, 人为操作的鼠标点击时间及查询时间没有那么频繁的,http请求的频次也会被监控,所以建议不要太频繁。 6. refer , 访问主页的方式不要太单一,可以从搜索引擎跳过去, 也可以直接访问 ,配合一定比例 7. PC端和移动端的ua都可以搭配使用点 8. 时间曲线等符合人类操作规律的。
另外,推荐下队友老勾写的 反爬文章 https://www.jianshu.com/p/b86920a3e872 ,他自己还弄了高质量稳定的ip代理2808proxy
做爬虫防屏蔽技术,多开浏览器开发,或者需要稳定的代理IP,可以加群713035185一起探讨