前言:在学术界多个边缘游走,读过一定数量的论文,经常在阅读某一领域的论文时看到其他领域的影子,下面来总结一下几个印象比较深刻的工作。
二叉树用于图像水印
这是在2020年秋季学期课堂报告上汇报过的一篇文章。
相关论文:
- Features Classification Forest: A Novel Development that is Adaptable to Robust Blind Watermarking Techniques(TIP, 2017) National Chung Hsing University, Chang and Shen
BPE算法用于文本分词
BPE算法起初是1994年被提出用来解决数据压缩问题的,后来在2016年的ACL上被提出用来完成文本分词,现如今这项技术已经被成功应用于GPT-2等一系列语言模型中。
相关论文:
- Neural Machine Translation of Rare Words with Subword Units(ACL, 2016) University of Edinburgh, Sennrich
欧拉二次剩余定理用于自然语言文本水印
这是2023年1月份读到的一篇论文中使用的方法。
相关论文:
- Natural Language Watermarking Using Semantic Substitution for Chinese Text(IWDW, 2003) Advanced e-Commerce Technology Lab., Chiang et al.
压缩编码用于文本隐写
在生成概率分布后的采样阶段,通过压缩编码的方式,将秘密信息嵌入到生成的 token 中。
相关论文:
- 定长编码(Fixed Length Coding):Generating Steganographic Text with LSTMs(ACL Workshop, 2017) Waterloo University, Fang et al.
- 霍夫曼编码(Huffman Coding):RNN-Stega: Linguistic Steganography Based on Recurrent Neural Networks(TIFS, 2019) Tshinghua University, Yang et al.
- 算术编码(Arithmetic Coding):Neural Linguistic Steganography(EMNLP, 2019) Harvard University, Ziegler et al.
- 字节对编码(Byte Pair Encoding):Semantic-Preserving Linguistic Steganography by Pivot Translation and Semantic-Aware Bins Coding(TDSC, 2023) Shanghai University, Yang et al.
文本隐写中用到的数学原理
2023年8月看到的生成式文本隐写相关工作中,用到大数定理、总变分距离、平斯克不等式、柯克霍夫原则、齐夫定律、琴生不等式以及拒绝采样等数学知识,可见数学的重要性!详见 此篇博客。
信号检测论用于AIGC检测
2024年6月读到一篇文章,使用信号检测论来评估人类鉴别AIGC的能力,并从表情和行为等角度评估了不同AIGC对人类鉴别能力的影响。简单来说,信号检测论就是利用人类评估结果的混淆矩阵,计算出敏感性(d’)值和一个判定标准值β值,前者能够表明鉴别能力的高低,后者能够表明鉴别是否存在明显偏向。也是挺有意思的一个研究角度吧。
相关论文:
- Can You Spot the AI-Generated Images? Distinguishing Fake Images Using Signal Detection Theory (HCII 2024) Hayun Park, et al. Kwangwoon University(韩国光云大学)
PS:信号检测论是一种心理物理法,是关于人们在不确定的情况下如何作出决定的理论。它是信息论的一个重要分支。 详细介绍见这里。
思考:记得在2022年11月下旬一次学术交流研讨会上,导师说过一句话:“跨界要形成降维打击。”不知道以上述几项工作为代表的研究算不算成功的跨界研究,但这至少提醒我们一点,那就是,思路要打开,思维要灵活,只有这样,才能够大胆创新。