自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(69)
  • 收藏
  • 关注

原创 Large Models for Time Series and Spatio-Temporal Data: A Survey and Outlook

时态数据,包括时间序列和时空数据,在现实世界的应用中极为广泛。这些数据类型记录了动态系统随时间变化的测量值,通常由物理和虚拟传感器产生。对这些数据进行深入分析至关重要,因为它们蕴含着丰富的信息,能够为多种下游任务提供支持。近年来,大语言模型和其他基础模型的快速发展,极大地推动了这些模型在时间序列和时空数据挖掘中的应用。这些方法不仅提升了跨领域模式识别和推理的能力,也为构建能够理解和处理时间数据的通用人工智能奠定了基础。数据类型、模型类别、模型应用范围和应用领域/任务。

2024-07-30 16:04:10 344

原创 VideoAgent: Long-form Video Understanding with Large Language Model as Agent

长形式视频理解是计算机视觉中的一个重要挑战,需要一个能够在长多模态序列上进行推理的模型。受人类对长形式视频理解的认知过程的启发,本文强调交互推理和规划,而不是处理冗长的视觉输入的能力。本文提出了一个新颖的基于Agent的系统VideoAgent,它使用一个大型语言模型作为中心Agent,迭代地识别和编译关键信息来回答一个问题,视觉语言基础模型作为翻译和检索视觉信息的工具。

2024-07-19 20:34:38 703

原创 Tracing Knowledge Instead of Patterns: Stable Knowledge Tracing with Diagnostic Transformer

知识追踪(Knowledge Tracing,KT)旨在追踪学习者学习过程中知识状态的演变。目前,在线学习系统愈发关注对用户的学习过程进行建模,进而为用户提供个性化的学习指导。然而,基于深度神经网络的KT的最新研究大多集中在提高预测学生下一步表现的准确性上。本文作者认为,这些KT模型以及训练范式可以跟踪学习者的学习活动模式(pattern),而不是他们不断发展的知识状态。提出了一个新的架构——Diagnostic Transformer (DTransformer)。

2024-07-15 09:38:22 639

原创 Aligning LLMs for FL-free Program Repair

大型语言模型( large language models,LLMs )在自动程序修复( automatic program repair,APR )方面取得了不错的效果。然而,Decoder-only的LLMs (如 GPT-4 )的next token prediction训练目标与当前填充式方法(infilling-style)的掩码连续词预测(masked span prediction)目标不一致,这阻碍了LLMs充分利用预训练知识进行程序修复。

2024-07-01 00:14:37 660

原创 TransformCode: A Contrastive Learning Framework for Code Embedding via Subtree Transformation

基于现有的利用迁移学习的预训练模型(PTM),本文提出了TransformCode框架,这是一种以对比学习方式学习代码嵌入的新框架。该框架是与编码器和语言无关的,同时还提出了一种新的数据扩充技术——抽象语法树(AST)转换,该技术将语法和语义转换应用于原始代码片段,以生成更多样、更稳健的样本用于对比学习。在本文中,证明了它在几个与代码相关的任务上相对于最先进的方法(如SourcererCC、Code2vec和InferCode)的有效性和优越性。

2024-06-25 17:47:41 882

原创 MACER

自动编译错误修复,即对无法编译的错误程序提出修复建议的问题,近年来引起了人们的极大兴趣,其中自动代码修复对于那些认为编译器错误消息晦涩难懂的新手程序员来说具有重要的教学应用价值;现有方法在很大程度上使用重型生成学习技术的黑盒应用来解决这个问题,例如序列到序列预测(TRACER)或强化学习(RLAssist),这类方法训练时间方面变得庞大,并且在针对特定错误类型时效率低下;作者提出 MACER,该技术基于将修复过程模块化分离为修复识别和修复应用。

2024-06-17 17:50:40 786

原创 KAN: Kolmogorov–Arnold Networks

受Kolmogorov–Arnold表示定理的启发,本文提出了Kolmogorov–Arnold Networks ( KAN ),作为多层感知机( MLP )的一种可行的替代方案。MLP在每一个节点(神经元)上具有固定的激活函数,KAN在边(权重)上具有可学习的激活函数。KAN中完全没有线性权重——每个权重参数都被替换为一个单变量样条函数(spline function)。本文表明,这种看似简单的变化使得KAN在准确性和可解释性方面优于MLP。

2024-05-20 17:41:30 999

原创 Reinforcement Learning

通过有监督微调,大语言模型已经初步具备了服从人类指令,并完成各类型任务的能力。然而有监督微调需要大量指令和所对应的标准回复,获取大量高质量的回复需要耗费大量的人力和时间成本。由于,有监督微调通常采用交叉熵损失做为损失函数,目标是调整参数使得模型输出与标准答案完全相同,不能从整体上对模型输出质量进行判断。因此,模型不能适用自然语言多样性,也不能解决微小变化的敏感性问题。强化学习则将模型输出文本作为一个整体进行考虑,其优化目标是使得模型生成高质量回复。此外,强化学习方法还不依赖于人工编写的高质量回复。

2024-05-17 10:19:49 701

原创 AI-Tutoring in Software Engineering Education

随着人工智能(AI)在各个领域的快速发展,人工智能驱动的工具在教育方面表现出巨大的潜力,尤其是在编程方面。然而,目前的研究中缺少对大语言模型(LLMs)作为自动编程评估系统 (APAS)AI-Tutor的科学评估。因此,为了了解学生如何与基于LLMs的AI-Tutor进行互动,并分析他们的体验,这篇文章展开了探索性的案例研究。具体而言,本文在APAS Artemis中集成GPT-3.5-Turbo模型作为人工智能导师,并通过经验数据收集和探索性调查,得出结论

2024-05-08 16:25:42 683

原创 ErrorCLR

规模化的编程教育越来越依赖于自动化反馈来帮助学生学习编程。其中一个重要的反馈形式是指出学生程序中的语义错误,并提供程序修复的提示。这种自动化反馈主要依赖于解决语义错误的分类、定位和修复任务。尽管存在用于这些任务的数据集,但我们观察到它们并不具有支持所有三个任务的注释。因此,现有的语义错误反馈方法将错误分类、定位和修复视为独立的任务,导致每个任务的性能都不理想。此外,现有数据集要么包含少量的编程作业,要么每个作业的程序数量很少。因此,现有方法通常利用基于规则的方法,并使用少量的编程作业进行评估。

2024-05-06 20:35:55 770

原创 Chatbot 在教育中的应用

在英语学习中使用聊天机器人与能力、自主性和相关性相关的哪些方面是显而易见的?学生希望教师如何将聊天机器人整合到他们的教学活动中?总的来说,Chatbot在英语学习领域有潜在的积极影响,是有意义的。

2024-05-06 20:33:31 847

原创 Large Language Models for Test-Free Fault Localization

软件错误定位(FL) 旨在自动定位有缺陷的代码行,这是许多手动和自动调试任务中的关键第一步。以前的 FL 技术假设提供输入测试,并且通常需要大量的程序分析、程序检测或数据预处理。之前关于程序自动修复APR)深度学习的工作很难从小数据集中学习,并且在现实世界的程序中产生的结果有限。近年来涌现出一些将大型语言模型LLM)用于代码相关工作的方法,比如代码生成、代码总结等任务,LLM表现出强大的泛化能力。受此启发,文章研究了 LLM 在行级(line-level)错误定位的适用性。

2024-04-26 21:35:41 813

原创 大模型中的RAG

大语言模型(LLM)展示了令人印象深刻的能力,但却遇到了诸如幻觉、过时的知识和不透明、无法追踪的推理过程等挑战。检索-增强生成(RAG)已经通过整合来自外部数据库的知识而成为一种很有前途的解决方案。这提高了生成的准确性和可信度,特别是对于知识密集型任务,并允许持续的知识更新和特定领域信息的集成。RAG 协同地将 LLM 的内在知识与外部数据库的庞大的、动态的存储库结合起来。这篇综述论文提供了对 RAG 进展的详细调查,包括 Naive RAG、Advanced RAG 和 Modular RAG。

2024-04-15 18:43:47 913

原创 Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models

注:本文不是OpenAI的官方技术报告。Sora是从文本到视频(T2V)的生成式人工智能模型,由OpenAI于2024年2月发布。该模型经过训练,可以从文本指令中生成逼真或富有想象力的场景视频,在模拟物理世界方面表现出潜力。本文基于公开的技术报告和逆向工程,对T2V人工智能模型的背景、相关技术、应用、存在的挑战和未来的发展方向进行了全面综述。考察构建Sora这个"世界模拟器"所使用的底层技术。讨论了广泛部署Sora需要解决的主要挑战和限制,例如确保安全和无偏见的视频生成。

2024-03-18 15:56:15 997

原创 The impact of chatbots based on large language models on second language vocabulary acquisition

近年来,大语言模型(LLMs)已经在自动化和增强教育任务方面展示了巨大的潜力,能够有效地捕捉人类语言的复杂性和多样性。本文旨在探究基于大语言模型的对话机器人在第二语言词汇学习方面的影响,将52名外语学生分为两组,实验组使用基于LLMs的聊天机器人,对照组则不使用。两组学生在八周的时间里学习相同的目标单词,待结束后进行评估,评估方式包括系统观察与定量测试。研究结果表明,使用基于LLMs的人工智能聊天机器人可以显著帮助学生在第二语言学习过程中获得接受性和生产性词汇知识。

2024-03-18 14:29:35 939

原创 PRewrite: Prompt Rewriting with Reinforcement Learning

工程化的启发式编写对于LLM(大型语言模型)应用的发展至关重要。然而,通常这种编写是以“试错”的方式手动进行的,这可能耗时、低效且不够优化。即使对于表现良好的提示,也总会有一个悬而未决的问题:是否可以通过进一步修改使提示更好?为了解决这些问题,我们在本文中研究了自动化的启发式编写。具体而言,我们提出了PRewrite,一种自动化方法,用于将未优化的提示重写为更有效的提示。我们使用LLM实例化提示重写器。重写器LLM经过强化学习训练,以优化给定下游任务的性能。

2024-03-04 18:18:49 1082

原创 Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models

在各种科学领域,分子发现起着至关重要的作用,推动了定制材料和药物的设计。传统的分子发现方法遵循试错过程,既耗时又昂贵,而计算方法,如人工智能(AI)已经成为加快各种任务,如分子字幕翻译的革命性工具。尽管分子字幕翻译对于分子发现的重要性,但现有的大多数方法严重依赖领域专家,需要过多的计算成本,并且表现不佳。另一方面,像ChatGPT这样的大型语言模型(LLM)在各种跨模态任务中表现出了出色的性能,因为它们在自然语言理解、泛化和推理方面具有强大的能力,这为推进分子发现提供了前所未有的机会。为了解决上述限制,我们

2024-01-09 15:24:41 963

原创 Making Large Language Models Perform Better in Knowledge Graph Completion

本文主要探讨了如何将有用的知识图谱结构信息融入大语言模型中,以实现大语言模型中的结构感知推理。基于大语言模型的知识图补全(KGC)旨在使用LLM预测KGs中缺失的三元组。但目前对基于LLM的KGC的研究有限,缺乏对LLM推理能力的有效利用,忽略了KGs中重要的结构信息,阻碍了LLM获得准确的事实知识。为解决这个问题,本文研究如何将有用的KG结构信息融入到LLM中,实现LLM的结构感知推理。首先将现有的LLM范式转移到结构感知设置中,提出了知识前缀适配器(KoPA)来实现这一目标。

2024-01-08 19:22:05 1361

原创 Unifying Large Language Models and Knowledge Graphs: A Roadmap

大型语言模型(LLMss),如ChatGPT和GPT4,由于其涌现的能力和通用性,正在自然语言处理和人工智能领域掀起新的浪潮。然而,LLMs是黑盒模型,它们往往无法捕捉和获取事实知识。相比之下,知识图(KGs)、维基百科和华普等,都是明确存储丰富事实知识的结构化知识模型。KG可以通过提供外部知识来增强LLMss为了进行推理和可解释性。同时,KGs在本质上难以构建和进化,这对KGs中现有的产生新的事实和代表看不见的知识的方法提出了挑战。因此,将LLMs和KG统一在一起,同时利用它们的优势是互补的。

2024-01-04 00:11:41 2386

原创 Talk Like a Graph: Encoding Graphs for Large Language Models

图是表示和分析现实世界应用中复杂关系的强大工具,如社交网络、推荐系统和计算金融。对图进行推理对于推断复杂系统中实体之间的关系,以及识别隐藏的模式和趋势是必不可少的。尽管在使用自然文本的自动推理方面取得了显著进展,但对使用大语言模型(LLM)的图推理仍然是一个有待研究的问题。这项工作对将图结构数据编码为文本以供LLM使用进行了首次全面研究。证明了LLM在图推理任务上的表现在三个基本层次上有所不同: (1)图编码方法,(2)图任务本身的性质,以及(3)考虑的图结构。

2023-12-18 20:22:08 1129

原创 GraphGPT: Graph Instruction Tuning for Large Language Models

图神经网络(GNN)通过图节点之间的递归信息交换和聚合来实现高级图结构理解。为了提高模型的稳健性,自监督学习(SSL)已成为一种有前途的数据增强方法。然而,现有的得到预训练图嵌入的方法通常要依赖特定下游任务的标签进行微调,这限制了它们在标记数据稀缺或不可用的场景中的可用性。为了解决这个问题,我们的研究重点是提高图模型在具有挑战性的零样本学习场景中的泛化能力。受大语言模型(LLM)的启发,我们的目标是开发一种面向图的 LLM,即使没有下游图数据中的任何可用信息,也可以在不同的下游数据集和任务中实现高度泛化。

2023-12-04 20:09:51 1538 2

原创 Multimodal Foundation Models: From Specialists to General-Purpose Assistants

近年来,人工智能领域在模型发展方面经历4个阶段,如图1所示。任务特定的模型是针对单个数据集和任务开发的,通常从零开始训练。通过大规模预训练,语言模型在许多既定的语言理解和生成任务上取得了先进的性能,为下游任务适配提供了基础。将各种语言理解和生成任务统一到一个模型中。随着网络规模的训练和统一,出现了一些新兴能力,如语境学习和思维链。随着人机对齐研究的进展,LLMs开始扮演通用助理的角色,以遵循人类的意图,完成类型广泛的语言任务。

2023-11-28 11:19:54 2572

原创 Beyond ChatGPT: A conceptual framework and systematic review of speech-recognition chatbots

本文旨在了解不同类型的语音识别Chatbot用于语言学习,以及Chatbot提供的功能支持。通过对37项关于使用Chatbot的实证研究(包括预定义的对话系统到使用人工智能技术的聊天机器人),本文提出了一个概念框架,包括Chatbot的三个关键组成部分:目标导向、具象化和多模态。并使用这个框架作为分析工具,确定并定义了八种Chatbot类型。同时从该框架出发,根据是否含有某个组件派生出共12种功能支持(affordances)。

2023-11-19 16:10:05 61

原创 Can students without prior knowledge use ChatGPT to answer test questions? An empirical study

随着全球对ChatGPT的巨大关注,教育领域出现了兴奋和怀疑的态势。要正确评估ChatGPT对教育的影响,了解它在帮助没有先前知识的学生回答评估问题方面的潜力至关重要。本研究旨在回答这个问题以及问题类型的影响。我们对计算机工程专业的学生进行了多次实验(实验组:n = 41到56),要求他们在学习相关主题之前使用ChatGPT回答先前的测试问题。然后将他们的得分与先前学期在测验或考试环境中回答相同问题的学生的得分进行比较(对照组:n = 24到61)。

2023-11-12 13:50:43 30

原创 分布式训练

在LLM的分布式训练中,因为其参数量过大,为了保证模型参数在各个服务器间的有效通信,舍弃了以往传统的多层树架构(交换机-交换机-机柜),选择采取胖树拓扑结构,试图实现网络带宽的无收敛.:此架构中没有中央服务器或控制节点,而是由节点之间进行直接通信和协调.节点间并行的进行训练和通信,可以显著降低通信开销减少通信墙的影响.,根据不同的通信库的在CPU,GPU上的对通信原语的支持情况不同,不同的分布式集群所采用的通信库也会不同.:主要包含训练服务器和,参数服务器.训练方式主要包含同步训练和异步训练.

2023-11-06 18:20:16 127

原创 LLaMA: Open and Efficient Foundation Language Models

本文介绍了LLaMA,是一个从7B到65B参数的基础语言模型集合。作者在数万亿计的token上训练该模型,证明了仅使用公开数据集也可以训练出SOTA级别的模型,而无需专有或未公开的数据集。最终实验结果显示,LLaMA-13B在大多数基准测试中要优于GPT-3(175B),同时LLaMA-65B与最好的模型Chinchilla-70B、PaLM-540B相比具有竞争力。基于更多的参数会带来更好的性能这一假设,前人将模型越做越大。

2023-11-06 17:58:22 316

原创 LORAPRUNE: PRUNING MEETS LOW-RANK PARAMETER-EFFICIENT FINE-TUNING

大规模预训练模型(LPM),如LLaMA和GLM,通过微调在各种任务中显示出了卓越的性能。尽管参数高效微调方法(PEFT),如低秩适配器(LoRA)的出现降低了大模型微调的成本,但它们的部署仍然受到巨大的模型规模和计算成本的阻碍。神经网络剪枝(Pruning)提供了一种压缩LPM的方法,可以进一步降低模型的计算成本。因此,使用LoRA微调模型适配下游任务和压缩模型便于部署成为可以结合使用的两个工作。我们可以选择先进行微调,后训练剪枝,但这样分离调优和剪枝可能会导致次优的结果。

2023-11-06 17:45:40 698

原创 DrugChat: Towards Enabling ChatGPT-Like Capabilities on Drug Molecule Graphs

用于药物化合物分析的类似于chatgpt的系统可以加速药物发现,增强对结构-活性关系的理解,指导优化,帮助药物重新利用,降低失败率,并简化临床试验。在这项工作中,尝试通过开发一个系统DrugChat,在药物分子图上实现类似于chatgpt的功能。DrugChat的工作方式与ChatGPT类似。用户上传一个化合物分子图,并询问关于这个化合物的各种问题。DrugChat将以多回合、互动的方式回答这些问题。DrugChat系统由一个图神经网络GNN、一个大语言模型LLMs和一个适配器组成。

2023-10-30 20:53:14 201

原创 A deep-learning system bridging molecule structure and biomedical text with comprehension comparable

为了加快生物医学研究过程,开发了深度学习系统,通过读取大规模生物医学数据来自动获取分子实体的知识。受人类从分子结构和生物医学文本信息的多功能阅读中学习深度分子知识的启发,我们提出了一个知识渊博的机器阅读系统,该系统在一个统一的深度学习框架中连接这两种类型的信息,用于全面的生物医学研究辅助。我们解决了现有的机器读取模型只能单独处理不同类型的数据的问题,从而实现了对分子实体的全面和彻底的理解。

2023-10-16 17:20:51 178

原创 Siren’s Song in the AI Ocean: A Survey on Hallucination in Large Language Models

虽然大型语言模型在一系列下游任务中表现出卓越的能力,但一个重要的问题是它们表现出幻觉的倾向:LLMs偶尔会产生偏离用户输入、与先前生成的上下文相矛盾或与既定的世界知识相抵触的内容。这一现象对LLMs在真实场景中的可靠性提出了实质性的挑战。本文回顾了近年来在幻觉的检测、解释和缓解方面所做的努力,并强调了LLMs所带来的独特挑战。本文给出了LLM幻觉现象的分类和评估基准,分析了现有的旨在缓解LLM幻觉的方法,并讨论了潜在的发展方向。

2023-10-06 15:23:43 262

原创 Struggling to Keep Tabs on Capstone Projects: A Chatbot to Tackle Student Procrastination

毕业论文项目通常代表学生参与的最重要的学术努力。时间管理通常是其中一个障碍。此外,大学生容易拖延行为。缺乏经验和拖延相结合,导致学生未能按时完成任务。导师们努力提供帮助,但繁重的工作负担通常阻碍了他们对学生的持续参与。本文探讨了会话代理(即聊天机器人)在单个学生毕业论文项目中应对拖延的程度。具体来说,聊天机器人的功能包括(1)提醒,(2)建议,(3)自动重新安排,(4)激励信息和(5)参考以前的毕业论文项目。这些功能是基于认知行为理论制定的,并在自我调节不协调的三个阶段内进行了框架化:前行动、行动和后行动。

2023-09-25 17:59:46 18

原创 向量数据库介绍

Faiss的全称是Facebook AI Similarity Search,是FaceBook的AI团队针对大规模相似度检索问题开发的一个工具,使用C++编写,有python接口,对10亿量级的索引可以做到毫秒级检索的性能。Faiss实际是一个向量检索库,其目标是将我们自己的候选向量集封装成index数据库,在查询时它可以加速我们检索相似向量TopK的过程。但并不具有存储数据的能力,所有的检索都在内存中实现,数据需要存储在本地。

2023-09-22 14:56:06 326

原创 Learning Transferable Visual Models From Natural Language Supervision

本文提出CLIP(Contrastive Language-Image Pre-Training)模型,使用对比学习的方式,直接从关于图像的原始文本中学习图像特征,以此利用更广泛的监督来源。本文在从互联网上收集的4亿**(图像, 文本)对数据集上进行预训练,测试时使用自然语言引用学习到的视觉概念,将与输入图像最匹配的文本标题作为分类结果,实现模型向下游任务的零样本**迁移。

2023-07-27 19:37:27 421

原创 Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

论文阅读:这篇文章给出了一个全新的术语——delta tuning,对以往研究的一系列参数高效微调方法进行了分类与定义,并且通过实验分析了delta tuning方法的性能表现、收敛表现、高效性表现、泛化表现、迁移性表现,以及随模型规模增长的性能表现。对今后将大模型适配到特定下游任务这一过程,给出了更加高效的实现方法。

2023-07-19 10:29:06 428

原创 Large Language Models Encode Clinical Knowledge

大型语言模型在自然语言理解和生成方面表现出色,但医学和临床应用的质量标准很高。目前还没有一个统一而全面的自动评估模型在医疗知识应用上的基准数据集,为此作者提出MultiMedQA,包含了多个现有的开源数据集以及作者新提出的数据集,并针对各个数据集设计了针对性的多样的prompt,使用了包含的prompt策略。为了全面地对模型生成答案的质量进行人类对齐,提出。文章主要对经过instruct tuning的PaLM模型Flan-PaLM与各个其他的大模型在所提出的MultiMedQA数据集上进行对比。

2023-07-18 17:17:27 384 1

原创 Harnessing the Power of LLMs in Practice - A Survey on ChatGPT and Beyond

本文为在下游自然语言处理 (NLP) 任务中使用大型语言模型 (LLM) 的从业者和最终用户提供了全面实用的指南。我们从模型、数据和下游任务的角度提供对 LLM 使用的讨论和见解。首先,我们对当前的 GPT 和 BERT 风格的 LLM 进行了介绍和简要总结。然后,我们讨论了预训练数据、训练数据和测试数据的影响。最重要的是,我们详细讨论了大型语言模型在各种自然语言处理任务中的使用和非使用情况,例如知识密集型任务、传统的自然语言理解任务、自然语言生成任务、涌现能力和注意事项 用于特定任务。

2023-07-13 22:42:38 66

原创 ChatGLM

本文介绍了一种具有1300亿个参数的中英双语预训练语言模型—GLM-130B。这是对至少和GPT-3一样好的100b级模型的开源尝试,并揭示了这样规模的模型是如何成功地进行预训练的。在本文中,以模型GLM为基座模型,并介绍了GLM-130B的训练过程,包括其设计选择,训练策略的效率和稳定性,以及工程努力。最终的GLM-130B模型在广泛的流行英语基准上提供了显著优于GPT-3 175B,而性能优势在OPT-175B和BLOOM-176B中没有观察到。

2023-07-07 03:46:55 51

原创 ChatDoctor: A Medical Chat Model Fine-tuned on LLaMA Model using Medical Domain Knowledge

在语言大模型百花齐放的当下,虽然各个模型都有着令人惊讶的表现,但仍然存在一些问题,比如模型容易产生错误的言论以及对事实的歪曲,这被称作"hallucination",即“幻觉”。如何降低幻觉是通用语言模型领域在未来的一个重要的研究方向。在这篇文章中,作者用领域知识对语言大模型进行prompt微调,使得模型产生的回答具有权威依据。

2023-06-24 17:47:08 421

原创 AI Studio开课心得

该课程项目诣在使学生理解深度学习基本训练过程及掌握百度飞桨框架的基本使用方法。通过查阅已有相关论文,使用更深的网络模型(如VGG-16,ResNet-18等)、调节参数(如batch_size,learning_rate等)优化模型,提高识别准确率。在项目过程中,学生的自主学习能力、资料收集能力、动手实践能力均得到提高。在选定题目的过程中,学生的资料收集能力得到了锻炼。在开发过程中,学生的团队协作能力、动手实践能力也得到提高。

2023-06-08 15:40:30 96

原创 Drug–drug interaction prediction with learnable size-adaptive molecular substructures

药物-药物相互作用(DDIs)是指两种或两种以上不相容的药物一起使用对身体产生不良反应的相互作用。DDIs可能是由相关药物的化学成分引起的。基于药物化学知识,即药物是一个实体由不同的官能团/化学子结构决定所有的药代动力学(如何处理生物)和药效学(它如何影响组织)属性,并决定最终的相互作用。介绍了门控消息传递神经网络(GMPNN),从药物的分子图表示中学习不同大小和形状的化学子结构,用于一对药物之间的DDI预测。GMPNN中,边被认为是控制消息传递流的门,因此以一种可学习的方式划分子结构。

2023-05-09 19:50:29 380

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除