我们都知道AIGC,那么你懂怎么检测某篇文章是否是AI生成的吗?
大多数人其实是凭感觉,主观上觉得 “我看你不爽,你做什么都是错的”,我看你长得就像AI!
其实很简单,它的显著特征只有三个,我们可以根据这三个维度去检测文章是否是ai生成的。 1、突发性 2、困惑度 3、平滑性。
AIGC基于深度学习的语言模型,比如我们耳熟能详的Transformer模型,这些模型通过大量的文本数据训练,学会了预测给定文本序列下一部分的概率分布。
第一种方式:
举个不恰当的例子:我们的首都是——?(),很自然的被预测最大的概率就是【北京】,而杭州、上海、深圳等在这句话中的概率是非常非常低的,低到我们的语言模型根本不会去选择。
假如模型就这么选择了呢?
答:我们的首都是【杭州】。
你什么感觉?困惑!不理解!
某种维度上,杭州、上海、深圳是【北京】的相似向量,可应用到上下文“我们的首都是……”的时候,除了概率最大的【北京】之外,可能最接近的其他词是【北平】。