前言
如何保护页面上的不得不展示却又需要进行保护的数据,防止这些有价值的数据被爬虫获取到,比如很多网站都有个人信息,个人信息中的邮件、号码就属于咱们需要保护的信息。用户访问时可以看到这些信息,但是爬虫机器人来了之后,咱们就得保护好数据。
加密解密策略
大部分爬虫机器在爬取数据的时候,首先会获取到网页的内容,然后再定位相关的标签,最后获取到存储的内容。
双密码本加密后的结果永远都是不断变化的,通过定位系统来鉴定索引,通过索引定位唯一字符,最后将这些字符组合在一起,就形成了最终的解密明文
示例
<?php
$email = '110@qq.com';
function transform($original)
{
//通过定位系统来鉴定索引,通过索引定位唯一字符,最后将这些字符组合在一起,就形成了最终的解密明文
//正序密码本
$bookSecret = '+./0123456789:@ABCDEFGHIJKLMNOPQRSTUVWXYZ_abcdefghijklmnopqrstuvwxyz';
//打乱后的密码本
$bookShuffle = str_shuffle($bookSecret);
var_dump( $bookShuffle);
$result = null;
$id = md5(time());
$iMax = strlen($original);
//定位原文在bookShuffle字符串中的位置,并连接成字符串形式
for ($i = 0; $i < $iMax; $i++) {
//通过原文长度找出在正序密码本bookSecret中的位置
$position = strpos($bookSecret, $original[$i]);
//定位原文在bookShuffle字符串中的位置,并连接成字符串形式
$result .= $bookShuffle[$position];
}
//双密码本的解密过程就是典型的逆向工程
//通过id定位渲染页面给内容,将打乱后的密码本:shuffleBook、原文在打乱后的密码本中的字符:content、从打乱的密码本推演出正序密码本:bookSecret
//逆向推出content每个字符在shuffleBook中的位置下标进而定位bookSecret中的字符,将结果串联起来得到原文
return <<<EOT
<span id="{$id}">被保护的内容</span>
<script>
(function (shuffleBook, content) {
console.log(shuffleBook, content);
let bookSecret = shuffleBook.split('').sort().join('');
console.log(bookSecret);
let output = '';
for(let i=0;i<content.length;i++)
{
let position = shuffleBook.indexOf(content.charAt(i));
output +=bookSecret.charAt(position);
}
document.getElementById('{$id}').innerText = output;
})('{$bookShuffle}','{$result}');
</script>
EOT;
}
$email = transform($email);
$html = <<<EOT
<body>
<div style="margin-top: 80px; padding-left: 60px">
$email
</div>
</body>
EOT;
echo $html;