实时追踪科研动态丨李航、Daniela L. Rus等人8.11精选新论文，附ChatPaper综述

AMiner学术搜索和科技情报挖掘

于 2023-08-14 12:02:23 发布

阅读量162

点赞数

文章标签：科研论文学术人工智能 ai

本文链接：https://blog.csdn.net/AI_Conf/article/details/132273142

版权

ChatPaper是一款整合检索、阅读和知识问答的工具，帮助科研人员快速找到最新研究动态，通过前沿动态订阅和多模态模型解析论文。文章介绍了如OpenProteinSet和AudioLDM2等研究，以及在医学和数据库管理领域的应用，展示了ChatPaper在提升科研效率方面的价值。

摘要由CSDN通过智能技术生成

作为科研人员，每天需要检索和浏览大量的学术文献，以获取最新的科技进展和研究成果。然而，传统的检索和阅读方式已经无法满足科研人的需求。

ChatPaper，一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率，获取最新领域研究动态，让科研工作更加游刃有余。

在这里插入图片描述

结合前沿动态订阅功能，精选arXiv当日热门新论文，形成论文综述，让大家更加快速了解前沿动态。

如果想要对某篇论文进行深入对话，可以直接复制论文链接到浏览器上或者直达ChatPaper页面：https://www.aminer.cn/chat/g/explain

2023年8月11日精选新论文列表：

1.Follow Anything: Open-set detection, tracking, and following in real-time 阅读原文

https://www.aminer.cn/pub/64d5b21d3fda6d7f060d0db9/

ChatPaper综述：论文介绍了一个名为"Follow Anything"（FAn）的机器人系统，该系统可以实时检测、跟踪和追踪任何对象。该系统使用多模式模型，不受训练时出现的概念的限制，并且可以利用文本、图像或点击查询来应用于推理时的新颖类别。通过利用大规模预训练模型（基础模型）的丰富视觉描述符，FAn可以通过将多模态查询（文本、图像、点击）与输入图像序列进行匹配来检测和分割对象。这些检测和分割的对象可以在图像帧之间进行跟踪，同时考虑到遮挡和对象重新出现的情况。在实时控制环路中，我们在一个现实世界的机器人系统（微型飞行器）上展示了FAn，并报告了它无缝追踪感兴趣的对象的能力。FAn可以在带有轻量级（6-8 GB）显卡的笔记本电脑上部署，每秒处理6-20帧。总结地说，该论文解决了实时检测、跟踪和追踪任何对象的问题，并提出了一个名为FAn的机器人系统来实现此目标。该系统具有开放的词汇和多模态模型，可以应用于推理时的新颖类别，并利用大规模预训练模型的视觉描述符来进行对象的检测、分割和跟踪。同时，该系统还考虑了遮挡和对象重新出现的情况。通过在微型飞行器上的实验证明了系统的能力。最后，为了促进该系统的快速采用和可扩展性，所有代码都已开源。

2.OpenProteinSet: Training data for structural biology at scale 阅读原文

https://www.aminer.cn/pub/64d5b2153fda6d7f060d0070/

ChatPaper综述：说明了在结构生物学的训练数据方面存在一个问题，即生成多重序列比对是计算密集型且耗时的，导致研究社区缺乏与AlphaFold2等训练相媲美的数据集，从而限制了蛋白质机器学习的进展。为了解决这个问题，作者引入了OpenProteinSet，这是一个开源的数据集，包含了超过1600万个多重序列比对结果、来自蛋白质数据银行的相关结构同源物以及AlphaFold2的蛋白质结构预测结果。作者已经成功地利用OpenProteinSet对AlphaFold2进行了重新训练，并预计OpenProteinSet将广泛用于蛋白质结构、功能和设计等多样任务的训练和验证数据，以及大规模多模态机器学习研究。

3.AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining 阅读原文

https://www.aminer.cn/pub/64d5b21d3fda6d7f060d0db5/

ChatPaper综述：论文解决了不同类型的音频生成问题之间存在的具体目标和倾向性差异的挑战，提出了一种统一的音频生成框架。该框架利用了自我监督的预训练模型来学习音频的通用表示，并通过GPT-2模型将任何形式的音频转化为这种表示。在生成过程中，借助这种表示，结合潜在扩散模型进行自我监督的音频生成学习。实验结果表明，该框架在文本到音频、文本到音乐和文本到语音转换等方面具有新的最先进的性能或与之竞争的性能。

4.Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models’ Alignment 阅读原文

https://www.aminer.cn/pub/64d5b2153fda6d7f060d00a4/

ChatPaper综述：论文指出，评估大型语言模型（LLMs）是否与社会规范、价值观和法规相符合的指导不明确，这是实践者面临的一个主要挑战。这一障碍阻碍了LLMs的系统迭代和部署。为了解决这个问题，该论文提供了一份关于LLM值得信赖的关键维度的综合调查。调查涵盖了LLM值得信赖的七个主要类别：可靠性、安全性、公平性、防止滥用、可解释性和推理能力、遵守社会规范和鲁棒性。每个主要类别进一步分为几个子类别，总共有29个子类别。此外，还选择了8个子类别进行进一步调查，对几个广泛使用的LLMs进行了相应的测量研究。测量结果表明，总体上，更加对齐的模型在整体可信度方面表现更好。然而，对于考虑的不同可信度类别，对齐的有效性有所不同。这凸显了在LLM对齐上进行更精细的分析、测试和持续改进的重要性。通过阐明LLM值得信赖的这些关键维度，该论文旨在为该领域的从业者提供有价值的见解和指导。理解和解决这些问题对于在各种应用中实现可靠和道德的LLMs部署至关重要。

5.Explainable AI applications in the Medical Domain: a systematic review 阅读原文

https://www.aminer.cn/pub/64d5b2153fda6d7f060d00c9/

ChatPaper综述：论文探讨了医学领域中可解释人工智能（XAI）应用的问题。虽然医学领域的人工智能应用在回顾性研究中取得了成功，但实际应用的情况却很少。医学人工智能领域面临着多个挑战，包括如何建立用户信任、遵守相关法规、合理使用数据等。可解释人工智能旨在帮助人们理解人工智能的结果并信任其结果。这篇论文对近年来发表的198篇相关文章进行了文献综述，总结了一些发现。首先，这些解决方案主要采用了模型无关的可解释人工智能技术。其次，相对于其他类型的机器学习模型，深度学习模型被更广泛地应用。再次，虽然解释性被应用于增加信任，但很少有研究报道了医生在这一过程中的参与。最后，可视化和交互式用户界面对于理解系统的解释和建议更有用。需要更多的医学和人工智能专家之间的合作研究，以指导在医学领域设计、实施和评估可解释人工智能解决方案的合适框架的发展。

6.LLM As DBA 阅读原文

https://www.aminer.cn/pub/64d5b21d3fda6d7f060d0cab/

ChatPaper综述：论文提出了一个基于大型语言模型（LLM）的数据库管理员D-Bot，可以从文本来源中持续获取数据库维护经验，并为目标数据库提供合理、有根据的及时诊断和优化建议。该研究主要解决数据库管理员在管理大量数据库实例时的困难和繁琐问题。