OpenAI:ChatGPT将遵守爬虫协议,网站可拒绝白嫖

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

不希望网站数据被ChatGPT白嫖?现在终于有办法了!

两行代码就能搞定,而且是OpenAI官方公布的那种。

b33e9b3228b2c60cf58c3610244b2ae3.png

刚刚,OpenAI在用户文档中更新了GPTBot的说明。

根据这一说明,内容拥有者将可以拒绝网站数据被ChatGPT的爬虫抓取

这是继暂停网页访问功能之后,OpenAI在版权和隐私保护方面的又一重大举措。

804d0e4fc526796ec9410ddadfaf0f58.png

不过,OpenAI还是希望能内容拥有者将访问权限开放给GPTBot。

在这份关于GPTBot的说明中,OpenAI表示:

允许我们的爬虫访问你的数据有利于使AI模型更精确、更安全。

e551fe41058815f0bff01cc5b19feabc.png

但至少,站主们拥有了选择的权利。

不过,也有网友指出了问题:

模型早就已经训练好了,现在提这个还有什么用?

68f1b47dddfb86cf42cbee605dc3f520.png

对此OpenAI尚未作出解释,我们还是先来看看这次的措施。

三种方式阻止GPT爬虫

那么,OpenAI都公布了哪些内容呢?

首先是GPTBot的U(ser)A(gent)信息。

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

UA是浏览器的身份标识,包含了访问者的系统环境、浏览器内核版本、语言等诸多信息。

通过HTML的标签,可以阻止特定的浏览器对网页内容进行访问。

在这份说明文档中,OpenAI还提供了更简单的爬虫阻止方式,即修改robots.txt。

只要在网站的robots.txt中加入如下内容:

User-agent: GPTBot
Disallow: /

这样,GPTBot将不会访问你的网站进行内容抓取。

如果只想禁止GPT抓取部分内容,也可以利用robots.txt进行设置。

和上面的内容相似,分别写明允许和不允许访问的目录即可。

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

其中Allow的优先级更高,也就是说当Allow的目录是Disallow目录的子目录时,会被允许访问。

此外,OpenAI还公布了爬虫机器人的ip地址。

如果实在是对爬虫不放心,可以设置禁止有关ip对网站的访问。

10a443f8d17e08e244c768f6cd109f33.png

什么是robots.txt

上面提到的robots.txt是什么,为什么它能阻止GPT的爬虫?

这其实是一种用户协议,站主可以在其中设置禁止访问网站的爬虫或禁止爬虫抓取的内容。

根据这一协议,即使在有能力访问的情况下,爬虫遇到相关内容都会主动选择避开

ChatGPT自身也在使用robots.txt,阻止爬虫抓取除了用户分享之外的其他内容。

18dfc20abf560ab1f62de3ec9c41f177.png

其实,在AI盛行之前,这项协议就已经存在,当时主要是用于限制搜索引擎。

这也正是我们无法在搜索引擎中搜到微信公众号文章的原因。

c54f8e8687fa697d751fc3c91dc8a957.png

这是一项君子协定,不过大多数厂商都会选择遵守,因为这体现了对行业规则和用户隐私的尊重。

如今,OpenAI也加入了这一行列。

One More Thing

与此同时,Google的爬虫正在全网抓取内容。

不过,网友对此似乎有更高的容忍度:

至少Google是链接到你的网站,但ChatGPT用了你的内容之后根本不会进行说明。

04ec5320629832ff56f9991de8ef0047.png

你认为在提高模型质量和保护创作者之间该如何找到平衡点呢?

参考链接:
[1]https://platform.openai.com/docs/gptbot
[2]https://www.theverge.com/2023/8/7/23823046/openai-data-scrape-block-ai
[3]https://news.ycombinator.com/item?id=37030568

报名开启!8月9日

欢迎参加「AIGC时代的算力基石」

8月9日15:00量子位行业沙龙「AIGC时代的算力基石」将为你全景解读AIGC算力的发展机遇,邀请到来自昆仑芯、天数智芯、联想集团、首都在线、潞晨科技等代表性企业的嘉宾,聊聊行业的最新趋势!

点击“阅读原文”,报名线下参与AIGC算力沙龙吧 5b1abc5d2e10a7666ea4aa307b236725.png

dd1fb00a10b5f43abe784364c79fd82e.png

点这里👇关注我,记得标星哦~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值