网上有很多采集工具,他们是如何采集的。
先看一下一系列网址
http://thinkphp.cn/blog-51.html
http://thinkphp.cn/blog-52.html
http://thinkphp.cn/blog-53.html
http://thinkphp.cn/blog-54.html
这些网址都很有规律,都是(blog-)+ 数字 组成,采集很大程度上利用这个网址规律自动采集网页。
如何更好的避免网站被采集?我们可以把网址中的(关键数字)部分加密一下。
供出加密方法,生成的加密网址短,稳定,非随机数加密方式,对seo友好。算法自行研究。
/**
* 加密数字方法
* echo idEncode(222);
* @author uuleaf[<uuleaf#163.com>] 小叶
* @param int $int 要加密的数字
* @return string 加密后的字符串
*/
function idEncode($int)
{
$str = md5($int);
$sarr = str_split($str);
$stai = (ord($str) + 8) % 10;
if ($stai == 0) $stai = 8;
$idstr = base_convert($int * $stai, 10, 32);
$str1 = substr($str, 10, 2);
$str2 = substr($str, 14, 2);
$str3 = substr($str, 18, 2);
return $str1 . $idstr . $str2 . $stai . $str3;
}
解密方法
/**
* 解密数字方法
* echo idDncode("");
* @author uuleaf[<uuleaf#163.com>] 小叶
* @param string $str 要解密的数字
* @return int 解密后的数字
*/
function idDecode($str)
{
$idstr = substr(substr($str, 2), 0, -5);
$ji = base_convert($idstr, 32, 10);
$si = (int)substr($str, -3, -2);
return floor($ji / $si);
}
测试
echo "加密前的网址:http://thinkphp.cn/blog-54.html";
echo "\n";
$encode_str = idEncode(54);
echo "加密后的网址:http://thinkphp.cn/blog-{$encode_str}.html";
echo "\n";
$decode_str = idDecode($encode_str);
echo "还原后的网址:http://thinkphp.cn/blog-{$decode_str}.html";
输出结果