防止用户过于轻松采集网页内容的方法

面对AI,所有禁止采集网页内容的功能都是徒劳,最不济截图后采集文字总简单了吧?能做的就是增加一点点人工采集的难度。
以下总结一下

一、注册用户

必须注册才能浏览全部内容,那么这样就可以针对用户控制其浏览次数,浏览时长,记录部分操作等等。但如果是普通网站,用了这个方法就是把自己给卡死了。

同理,用ip、cookie的方式限制一下也算是聊胜于无吧。

二、数据必须用js调用

基本是没用的,但可以把禁止复制黏贴的功能放在js里,略微增加一丢丢难度。

三、页面禁止操作

以下是禁止键盘ctrl+c,禁止鼠标点击复制

<script type="text/javascript">
document.addEventListener('keydown', function (e) {
  if (e.ctrlKey && (e.keyCode === 67 || e.keyCode === 86 || e.keyCode === 85 || e.keyCode === 117)) {
    return false;
  }
});

document.addEventListener('mousedown', function (e) {
  if (e.button === 2 || e.button === 3) {
    return false;
  }
});

document.addEventListener('copy', function (e) {
  e.preventDefault();
});
</script>

以下是禁止页面鼠标选中

body{
-webkit-user-select: none; /* Safari */
-moz-user-select: none; /* Firefox */
-ms-user-select: none; /* Internet Explorer/Edge */
user-select: none;
}

四、换其它格式

重要文档就不直接写在web里,比如招标内容,转而使用word,加入水印背景,另存为pdf或图片。
注意pdf需要禁止编辑。

五、改变页面布局

机器人采集一般是针对固有的网页格式,比如<div id="content">xxxx</div>,那么采集的时候就采集idcontentdiv中的内容。

针对这个特性,那么可以定期把div改为p,把content改为ccc…就是这个意思吧,但这样对搜索引擎并不友好,仅仅能防止机器采集,人工也毫无影响。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值