- 博客(14)
- 收藏
- 关注
原创 学习笔记(一)——Langchain基本操作与函数
之后,我们可以导入相关类并设置我们的链,该链包装模型并添加此消息历史记录。这里的一个关键部分是我们传入的函数。目前,我们正在使用一个高级接口来构建代理,但 LangGraph 的好处是,这个高级接口由一个低级、高度可控的 API 支持,以防你想修改代理逻辑。如果我们选择我们希望使用哪种方法来检索文档,我们可以轻松创建一个可运行的。然后,未来的交互将加载这些消息,并将它们作为输入的一部分传递到链中。如果不进行管理,消息列表将无限制增长,并可能溢出 LLM.因此,添加一个步骤来限制您传入的消息的大小非常重要。
2024-06-03 15:12:51
1230
原创 论文阅读笔记(十三)——Benchmarking spatial clustering methods with spatially resolved transcriptomics data
其次,我们发现了当前方法的局限性。这些局限性在测试包含小型和非连续组织域的额外22个数据(方法和补充表1)以及在包含31个组织切片的另一个大规模数据集的多切片分析中变得明显。
2024-06-02 17:46:31
1509
1
原创 论文阅读笔记(十二)——Augmenting large language models with chemistry tools
大型语言模型(LLMs)在跨领域任务中表现出色,但在化学相关问题上却表现不佳。这些模型也缺乏外部知识源的访问权限,限制了它们在科学应用中的有用性。我们介绍了ChemCrow,这是一种设计用于完成有机合成、药物发现和材料设计任务的LLM化学代理。通过集成18个专家设计的工具,并使用GPT-4作为LLM,ChemCrow增强了LLM在化学领域的性能,并展现了新的能力。我们的代理自主规划和执行了昆虫驱避剂和三种有机催化剂的合成,并指导发现了一种新的发色团。
2024-05-30 19:11:19
1510
1
原创 论文阅读笔记(十一)——BioInformatics Agent (BIA)
生物信息学在理解生物现象中起着至关重要的作用,但生物数据的指数级增长和技术的快速进步加大了深入探索这一领域的障碍。因此,我们提出了生物信息代理(BIA),这是一种利用大语言模型(LLM)技术的智能代理,通过自然语言促进自主的生物信息学分析。BIA的主要功能包括提取和处理原始数据和元数据,查询本地部署和公共数据库的信息。它还承担了工作流程设计的制定,生成可执行代码,并提供全面的报告。本文专注于单细胞RNA测序(scRNA-seq)数据,展示了BIA在信息处理和分析以及执行复杂任务和交互方面的卓越能力。
2024-05-30 16:24:36
1589
1
原创 论文阅读笔记(十)——CRISPR-GPT: An LLM Agent for Automated Design of Gene-Editing Experiments
基因组工程技术的引入改变了生物医学研究,使得对遗传信息进行精确修改成为可能。然而,创建一个高效的基因编辑系统需要对CRISPR技术和复杂的实验系统有深入的了解。尽管大语言模型(LLMs)在各种任务中表现出了前景,但它们往往缺乏特定知识,难以准确解决生物设计问题。在这项工作中,我们介绍了CRISPR-GPT,这是一个增强了领域知识和外部工具的大语言模型代理,用于自动化和增强基于CRISPR的基因编辑实验的设计过程。
2024-05-29 20:05:35
2253
1
原创 论文阅读笔记(九)——Caduceus: Bi-Directional Equivariant Long-Range DNA Sequence Modeling
大规模序列建模引发了快速的进步,现在这些进步已经扩展到生物学和基因组学。然而,建模基因组序列提出了诸如需要建模长距离标记相互作用、基因组上游和下游区域的影响以及DNA的反向互补性(RC)等挑战。在此,我们提出了一种基于这些挑战的架构,该架构基于长距离Mamba块,并将其扩展为支持双向性的BiMamba组件,以及进一步支持RC等变性的MambaDNA块。
2024-05-16 20:20:23
2526
1
原创 论文阅读笔记(八)——Knowledge Distillaton of DNABERT for Prediction of Genomic Elements
理解人类基因组编码的信息以及 DNA 序列每一部分的影响是我们社会的一个基本问题,这对于揭示常见疾病的机制至关重要。随着基因组学领域最新技术的发展,许多研究机构具备收集海量基因组数据的工具。然而,缺乏能够以生物学上可靠且高效的方式处理和分析这些数据集的工具。许多深度学习解决方案已经被提出用于解决当前的基因组任务,但大多数时候,主要研究兴趣在于基础的生物学机制,而非预测指标本身的高分数。最近,深度学习的最新技术已转向大型Transformer模型,这些模型使用一种可以利用的注意力机制以实现可解释性。
2024-05-15 10:58:46
1096
原创 论文阅读笔记(七)——Distilling Large Vision-Language Model with Out-of-Distribution Generalizability
大型视觉语言模型(VLMs)已经取得了出色的性能,但它们的体积和计算需求使得在资源受限设备和时间敏感任务中的部署变得不切实际。模型蒸馏,即创建能保持较大模型性能的较小、更快的模型,是解决这一问题的一个有前景的方向。本文研究了在小规模或中等规模数据集上,将大型教师视觉语言模型的视觉表示蒸馏到轻量级学生模型中的方法。特别是,本研究关注开放词汇分布外(OOD)泛化,这是以前模型蒸馏文献中被忽视的一个具有挑战性的问题。
2024-05-14 21:22:21
913
1
原创 论文阅读笔记(六)——MINILLM: KNOWLEDGE DISTILLATION OF LARGE LANGUAGE MODELS
知识蒸馏(KD)是一种减少大语言模型(LLMs)高计算需求的有效技术。然而,之前的知识蒸馏方法主要应用于白盒分类模型或训练小模型来模仿黑盒模型API(如ChatGPT)。如何有效地将白盒大语言模型的知识蒸馏到小模型中仍未得到充分探索,这在开源大语言模型兴起的背景下变得尤为重要。在这项工作中,我们提出了一种知识蒸馏方法,将大语言模型蒸馏到较小的语言模型中。
2024-05-14 20:46:52
3541
1
原创 论文阅读笔记(五)——Hyena Hierarchy: Towards Larger Convolutional Language Models
深度学习的最新进展很大程度上依赖于大型transformer的使用,因为它们具有大规模学习的能力。然而,transformer的核心构建块,即注意算子,在序列长度上表现出二次代价,限制了上下文可访问的数量。现有的基于低秩和稀疏逼近的次二次方法需要与密集关注层相结合来匹配transformer,这表明在能力上存在差距。在这项工作中,我们提出了Hyena,一个由隐式参数化长卷积和数据控制门控交错构建的亚二次型注意力替代算法。
2024-04-28 16:40:17
3441
1
原创 论文阅读笔记(四)——HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution
基因组(DNA)序列编码了基因调控、蛋白质合成和许多其他细胞特性的大量信息。与自然语言模型类似,研究人员提出了基因组学的基础模型,从未标记的基因组数据中学习可概括的特征,然后可以对下游任务进行微调,如识别调控元件。由于注意力的二次缩放,以前基于transformer的基因组模型使用512到4k标记作为上下文(<人类基因组的0.001%),这大大限制了DNA中远程相互作用的建模。
2024-04-27 16:45:28
2144
1
原创 论文阅读笔记(三)——EVO:Sequence modeling and design from molecular to genome scale with Evo
基因组是一个完全编码DNA、RNA和蛋白质的序列,它们协调了整个生物体的功能。机器学习的进步与全基因组的大量数据集相结合,可以实现生物基础模型,加速复杂分子相互作用的机制理解和生成设计。我们报告Evo,一个基因组基础模型,使预测和生成任务从分子到基因组尺度。使用基于深度信号处理的先进架构,我们将Evo扩展到70亿个参数,在单核苷酸,字节分辨率下,上下文长度为131千碱基(kb)。
2024-04-27 14:46:13
2621
1
原创 论文阅读笔记(二)——The Nucleotide Transformer
缩小可测量遗传信息和可观察性状之间的差距是基因组学长期面临的挑战。然而,仅从DNA序列预测分子表型仍然是有限和不准确的,通常是由于缺乏注释数据和无法在预测任务之间转移学习。在此,我们对DNA序列预先训练的基础模型进行了广泛的研究,命名为Nucleotide Transformer,其参数范围从50M到2.5B不等,并整合了来自3,202种不同人类基因组的信息,以及来自不同门(包括模式生物和非模式生物)的850个基因组。
2024-04-26 18:54:56
2010
1
原创 论文阅读笔记(一)——Neural ADMIXTURE for rapid genomic clustering
随着遗传研究扩展到大规模、日益多样化的生物库,表征大型队列的遗传结构变得越来越重要。常用的方法是将个体基因组分解成分数簇分配,每个簇代表一个DNA变异频率向量。然而,随着生物库规模的迅速增加,这些方法在计算上变得难以处理。在这里,我们提出了Neural ADMIXTURE,这是一种神经网络自编码器,它遵循与当前标准算法ADMIXTURE相同的建模假设,同时减少了计算时间,甚至超过了最快的替代方案。一个月的连续计算使用ADMIXTURE可以减少到只有几个小时的神经ADMIXTURE。
2024-04-26 16:40:04
1034
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人