OpenAI透露GPT-4动向：文本与视觉融合，人类反馈+强化学习解决安全问题 | AI日报...

智源社区

于 2021-01-04 20:00:00 发布

阅读量1.6k

点赞数

文章标签：人工智能深度学习机器学习大数据编程语言

原文链接：https://hub.baai.ac.cn/view/5559

版权

图灵奖得主JudeaPearl联手21名学者发表公开信，要求重塑学术界「言论自由」

科学需要「自由」吗？至少，以图灵奖得主Judea Pearl，国际机器学习协会的联合创始人之一Pedro Domingos，量子计算理论专家Scott Aaronson等人为代表的22位科学家是这样认为的，他们于2020年末联名签署了一封致ACM（美国计算机协会）的公开信，「声讨」一切对科学家进行人身攻击的行为，呼吁建设一个更加多样化和包容的社会。

公开信表示，现在出现了越来越多的打压行为，企图限制自由和不受约束的科学研究和辩论。这些行为包括「呼吁学术抵制」、「试图解雇员工」、对「麻烦的」个人进行围攻等等。公开信敦促学术界重申下面三条核心原则，即:

1）科学工作的判定应以科学价值为依据，不受研究人员的身份或个人观点的影响；

2）科学界就某一观点或主题的讨论和辩论必须不受事先限制；

3）任何人都不应该因为其个人观点或政治观点、宗教、国籍、种族、性别或性取向而受到骚扰或攻击

OpenAI透露GPT-4动向：文本与视觉融合，人类反馈+强化学习解决安全问题

OpenAI联合创始人、首席科学家Ilya Sutskever（他也是AlexNet的作者之一）近期在吴恩达编辑的The Batch周刊2020年终特刊里的撰文，我们可以从中一窥GPT-4未来的动向。Ilya Sutskever写道：

2021 年，语言模型将开始了解视觉世界。文本本身可以表达关于世界的大量信息，但它并不完备，因为我们也生活在视觉世界中。下一代 AI 模型将能够编辑文本输入并生成图像，我们也希望它们能够借由其见过的图像而更好地理解文本。

联合处理文本和图像的能力将使模型变得更聪明。人类接触的不仅是阅读到的内容，还有看到和听到的内容。如果模型可以处理类似的数据，那么它们就能以类似人类的方式学习概念。这个灵感尚未得到证实，我希望 2021 年能够看到这方面的进展。

模型更加聪明的同时，我们也要保证其安全性。GPT-3 能够处理多项任务，但它并不像我们认为的那样可靠。我们希望给模型一项任务后，模型能够返回无需更改或确认的输出。在 OpenAI，我们提出了一种新方法：基于人类反馈的强化学习。该方法允许人类裁判利用强化信号用我们想要的方式指导模型的行为，这样我们就可以强化期望的行为，抑制不想要的行为。

GPT-3 等系统被动地吸收信息。它们吸收数据并内化其相关性，当训练数据集包含我们不希望模型模仿的行为样本时，这是个大问题。而使用基于人类反馈的强化学习后，我们可以让语言模型展示出多种行为，人类裁判就这一行为是否符合期望给出反馈。我们发现 GPT-3 语言模型能够快速从这些反馈中学习，这样我们就可以利用相对少的人类交互快速精确地调整模型行为。

让语言模型处理文本和图像这两种数据模态，并通过与人类的交互进行训练后，我们看到了一条路径，使模型变得更强大、更值得信任，因而对更多人具备更大用途。这条路径将在 2021 年提供更多令人振奋的发展前景。

JürgenSchmidhuber回顾30年前旧作，称其启发了现今流行的很多概念

2020 年最后一天，LSTM 发明人、深度学习元老 Jürgen Schmidhuber 发表博客文章，回顾了 30 年前其团队发表的关于利用人工进行规划和强化学习的研究工作。

他表示，其在 1990 年发表的文章《Making the World Differentiable: On Using Self-supervised Fully Recurrent Neural Networks for Dynamic Reinforcement Learning and Planning in Non-stationary Environment》中（以下简称 FKI-126-90 报告）介绍了一些现在广泛使用的概念，包括以循环神经网络（RNN）作为世界模型进行规划、高维奖励信号（也作为神经控制器的输入）、用于 RNN 的确定性策略梯度，以及神经网络（NN）中兼具生成式和对抗性的人工好奇心和内在激励。

在 2010 年代，随着算力成本的降低，这些概念流行开来。2015 年以来，Jürgen 等人进行了更多扩展，以解决抽象概念空间中的规划问题和如何学习思考（learning to think）。

此外，具有自适应循环世界模型的智能体甚至可以对意识（consciousness）和自我认识（self-awareness）进行简单的解释。

FKI-126-90 报告地址：

http://people.idsia.ch/~juergen/FKI-126-90ocr.pdf

我国学者通过AI，发现可能比瑞德西韦效果更好的新冠药物

近日，中国科学院深圳先进技术研究院魏彦杰等人在PLOS Computational Biology杂志发表了题为：A novel virtual screening procedure identifies Pralatrexate as inhibitor of SARS-CoV-2 RdRp and it reduces viral replication in vitro 的研究论文。

研究团队通过AI计算机筛选，发现原本用于治疗淋巴瘤的化疗药物Folotyn(普拉曲沙) 可能是治疗新冠肺炎的有效药物。体外实验表明，在相同的实验条件下，Folotyn（普拉曲沙)比吉利德公司的瑞德西韦（Remdesivir）更有效抑制新冠病毒（SARS-CoV-2）复制。现在瑞德西韦已经被FDA批准用于治疗住院的新冠肺炎患者。

需要指出的是，据中国科学院深圳先进技术研究院的研究人员介绍，Folotyn（普拉曲沙) 作为一种癌症化疗药物，与多种副作用有关，其目前仅限于治疗外周性T细胞淋巴瘤。因此，尽管体外试验表明该药物对抑制新冠病毒在细胞内的复制效果显著，但该药物对新冠患者的临床用途可能有限。

尽管如此，这项研究更重要的是表明了人工智能能够用于帮助老药新用，可以针对新冠病毒（SARS-CoV-2）的靶标进行虚拟药物筛选，加快药物发现流程。