我们都知道AIGC,那么你懂怎么检测某篇文章是否是AI生成的吗?
大多数人其实是凭感觉,主观上觉得 “我看你不爽,你做什么都是错的”,我看你长得就像AI!
其实很简单,它的显著特征只有三个,我们可以根据这三个维度去检测文章是否是ai生成的。 1、突发性 2、困惑度 3、平滑性。
AIGC基于深度学习的语言模型,比如我们耳熟能详的Transformer模型,这些模型通过大量的文本数据训练,学会了预测给定文本序列下一部分的概率分布。
第一种方式:
举个不恰当的例子:我们的首都是——?(),很自然的被预测最大的概率就是【北京】,而杭州、上海、深圳等在这句话中的概率是非常非常低的,低到我们的语言模型根本不会去选择。
假如模型就这么选择了呢?
答:我们的首都是【杭州】。
你什么感觉?困惑!不理解!
某种维度上,杭州、上海、深圳是【北京】的相似向量,可应用到上下文“我们的首都是……”的时候,除了概率最大的【北京】之外,可能最接近的其他词是【北平】。
假如模型就这么选择了呢?
答:我们的首都是【北平】
你什么感觉?就很突然!突发性!
但是,我们知道,正常情况下,语言模型预测的下一个词99%是【北京】。
假如我们有一篇100个句子的文章全部是AI生成的,那么在检测的时候,它就是100个类似“我的首都是北京”这样的句子。
于是,
- 若是你写出100个涵盖类似“我的首都是【北京】”这样句子的文章,那你这篇文章就是[高概率AIGC]。
- 若是你写出100个涵盖类似“我的首都是【杭州】”这样句子的文章,那你这篇文章就是狗屁不通,怀疑你小学生都没毕业。但是你这篇文章【AIGC很低!】
- 若是你写出100个涵盖类似“我的首都是【北平】”这样句子的文章,那你这篇文章就可能是人类的某个脑回路不同吧,但是身为人类的我们能看懂。同样 [AIGC很低!】
第二种方式:
再举个不恰当的例子:我们的……是北京。很自然的被预测最大的概率就是【首都】,但也可能是【家乡】。
重点来了!
AIGC是逐字生成的,他是按我,我们,我们的,我们的首都,我们的首都是,……生成的,而不是知道了我们的……是北京,对句子进行填空。
于是,
- 若是你写出100个涵盖类似“我们的【首都】是【北京】”这样句子的文章,我改成“我们的家乡是北平”,你ai写出100个涵盖类似“我的[首都]是【北京】”句子的文章,而我,全部改成“我们的家乡是北平”,试问AI你该如何应对?
我知道上面两种方式举的例子及其不恰当,并且和实际复杂的模型也相差甚远,但我期望能通过简单的例子给你一个小小的启发。
ZeroGPT - 特工AI检测器就是利用了这个原理,做了一个混合模型。
可供随意测试:ZeroGPT
那么,你懂怎么破解AI,降低AI率了吗?