自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小哲的博客

知识改变命运,技术成就梦想。不忘初心,继续前行!

  • 博客(864)
  • 资源 (2)
  • 收藏
  • 关注

原创 【异质图学习】异构图神经网络中的自监督学习:基于语义强度和特征相似度的对比学习

简介:本文探讨了异构图神经网络中自监督学习的应用,特别是基于语义强度和特征相似度的对比学习技术。通过对比学习,模型能够从无标签数据中学习有用的特征表示,进而提升下游任务的性能。文章还提供了实例和清晰易懂的解释,帮助读者理解复杂的技术概念。​****​是处理具有多种类型节点和边的图数据的有效工具。在实际应用中,大量的图数据是无标签的,因此如何充分利用这些无标签数据成为了一个重要的问题。为解决这个问题提供了一种解决方案。

2024-11-11 16:40:42 821

原创 【论文解读】Med-BERT: 用于疾病预测的大规模结构化电子健康记录的预训练情境化嵌入

Med-BERT 是一种基于预训练的语义模型,它是在BERT的基础上进行了修改,专门用于处理结构化的电子健康记录(EHR)数据。Med-BERT 的架构由两个部分组成:Med-BERT 和预测头。其中,Med-BERT 部分的参数被加载并初始化自预训练模型,而预测头的参数则在微调过程中更新。Med-BERT 使用了六个层、六个注意力头和一个隐藏维度为192的变压器架构。在预训练阶段,Max Sequence Length 被设置为512个标记。

2024-10-31 09:45:52 348

原创 【论文解读】Sieve-Based Entity Linking for the Biomedical Domain

这篇论文探讨了生物医学文本处理中的关键任务——疾病提及归一化(normalization of disorder mentions),并提出了一个多阶段筛分方法(multi-pass sieve approach)来解决这个问题。该方法具有简单性和模块化的优点,并在两个数据集上进行了评估,取得了最先进的结果。规范化是在消除潜在的歧义表面单词或短语后,将文档中的单词或短语映射到本体中的唯一概念(基于本体中对该概念的描述)的任务。这个任务被称为实体消歧、记录链接或实体链接。‍我们采用的方法对于。

2024-10-30 10:12:31 82

原创 【多模态】5分钟了解什么是多模态学习

什么是模态表示(Modal Representation)?模态表示是将不同感官或交互方式的数据(如文本、图像、声音等)转换为​计算机可理解和处理的形式,以便进行后续的计算、分析和融合。文本模态的表示:文本模态的表示方法有多种,如独热表示、低维空间表示(如通过神经网络模型学习得到的转换矩阵将单词或字映射到语义空间中)、词袋表示及其衍生出的n-grams词袋表示等。目前,主流的文本表示方法是预训练文本模型,如BERT。视觉模态的表示:视觉模态分为图像模态和视频模态。

2024-10-19 12:05:29 129

原创 【学术前沿】PATHWAYS:谷歌大规模异构计算编排调度系统(Jeff Dean 和 Sanjay Ghemawat联合出品)

Pathways系统旨在探索新系统和机器学习研究思路,同时保持当前模型的最新性能。Pathways使用异步运算符的分片数据流图,这些运算符消耗和生成futures,并在数千个加速器上有效地联合调度异构并行计算,同时协调其专用互连上的数据传输。Pathways利用了一种新颖的异步分布式数据流设计,该设计允许控制平面并行执行,而不管数据平面中的依赖关系。通过精心设计,这种设计允许Pathways采用单个控制器模型,从而更容易表达复杂的新并行模式。

2024-10-17 09:42:40 667

原创 【文献综述】扩散模型在文本生成中的进展

自然文本生成旨在从输入数据中生成流畅、合理和可理解的语言文本(Yu等人,2022b)。这项任务在文献中更正式地称为“自然语言生成”。目前,它是NLP中最重要、最具挑战性的子任务之一。NLG有两种主要的生成方法:自回归(autoregressive,AR)和非自回归(non-autoregressive, NAR),也称为端到端生成。

2024-10-17 09:32:46 956

原创 【Python】如何在Python脚本中根据需要自动安装所需的包

在讨论如何自动安装所需的包之前,先来了解一下什么是包管理器。#包管理器#​是一种用于自动化软件包安装、卸载和管理的工具。在Python中,最常用的包管理器是pip。它允许我们从PythonPackage Index(PyPI)上安装和卸载各种Python包。在本文中,介绍了如何在Python脚本中根据需要自动安装所需的包。可以使用importlib​模块动态导入包,使用​文件管理依赖,或使用setuptools​工具构建和安装自己的包。

2024-08-30 16:26:56 986

原创 15 种高级 RAG 技术 ——从预检索到生成

检索增强生成(RAG)是指对大型语言模型输出进行优化,使其能够在生成响应之前引用训练数据来源之外的权威知识库。大型语言模型(LLM)用海量数据进行训练,使用数十亿个参数为回答问题、翻译语言和完成句子等任务生成原始输出。在 LLM 本就强大的功能基础上,RAG 将其扩展为能访问特定领域或组织的内部知识库,所有这些都无需重新训练模型。这是一种经济高效地改进 LLM 输出的方法,让它在各种情境下都能保持相关性、准确性和实用性。

2024-08-27 17:52:15 954

原创 大模型领域的GGML是什么?

GGML是一个用于机器学习的张量库,它只是一个c++库,允许你在CPU或CPU + GPU上运行llm。它定义了用于分发大型语言模型(llm)的二进制格式。GGML使用了一种称为量化的技术,该技术允许大型语言模型在消费者硬件上运行。GGML全称是,是由Georgi Gerganov开发的一个张量库(tensor library),Georgi Gerganov是著名的开源项目llama.cpp的创建者。最早在2023年2月份在GitHub上提交更新。GGML是用C编写的,为大型语言模型提供了基础设施。

2024-08-23 11:30:30 472

原创 【学术前沿】基于非易失性存储器硬件特性的存算一体神经网络设计方法

神经网络能够从复杂的非结构化数据中提取深层次的特征和信息,为数据处理提供了高效的解决方案。面向神经网络算法,传统基于冯诺依曼架构的信息处理系统面临着数据搬运造成的功耗和延迟瓶颈,极大地限制了能量效率和算力的提升。基于非易失性存储器的模拟型存算一体范式,可以在存储单元原位地高并行地执行向量矩阵乘法运算,消除了大量数据搬运,具有低功耗和低延迟的特点,在神经网络推理加速系统中显示出巨大的应用潜力。

2024-08-22 15:51:42 810

原创 【论文创新】如何寻找自己论文的创新点?

如何寻找自己论文的创新点?

2024-05-04 21:16:53 622

原创 【NLP】大语言模型基础之GPT

OpenAI公司在2018年提出的生成式预训练语言模型(Generative Pre-Training, GPT)是典型的生成式预训练语言模型之一。GPT的模型结构如下所示:它是由多层Transformer组成的单向语言模型,主要分为输入层、编码层和输出层三部分。

2024-04-24 22:59:07 1441

原创 【NLP】大语言模型基础之Transformer结构

在Transformer之前,循环神经网络(RNN)和长短时记忆网络(LSTM)等序列模型是处理自然语言数据的主流选择。然而,这些模型存在一些问题,例如难以并行化处理、难以捕捉长距离依赖关系等。Transformer的提出旨在解决这些问题,并通过引入自注意力机制(Self-Attention)实现更高效的序列建模。从2020年OpenAI发布GPT-3开始,对大语言模型的研究逐渐深入,虽然大语言模型的参数量巨大,通过有监督微调和强化学习能够完成非常多的人物,但是其理论基础仍然是Transformer结构。因

2024-04-14 20:28:39 1214

原创 【AutoML】一个用于图像、文本、时间序列和表格数据的AutoML

AutoGluon快速原型制作:用几行代码在原始数据上构建机器学习解决方案。最先进的技术:无需专业知识即可自动利用SOTA模型。易于部署:从实验到生产云预测因子和预建装容器。可自定义:可扩展使用自定义功能处理,模型和指标。

2024-03-26 23:08:12 1141

原创 【时序分析】TimeGPT:首个时间序列分析基础大模型

从论文来看,研究者向我们展示了TimeGPT作为一种新型基础模型在时间序列预测领域的潜力和优势。通过克服当前数据集和模型架构的限制,TimeGPT有望推动时间序列分析的进一步发展,并改进现有预测方法的准确性和效率。

2023-12-20 15:45:41 1719

原创 【机器学习】5分钟掌握机器学习算法线上部署方法

本文介绍业务模型的上线流程。首先在训练模型的工具上,一般三个模型训练工具,Spark、R、Python。这三种工具各有千秋。针对不同的模型使用场景,为了满足不同的线上应用的要求,会用不同的上线方法。

2023-12-17 08:00:00 1961

原创 【Java】5分钟读懂Java虚拟机架构

本文阐述了JVM的构成和组件。每个Java开发人员都知道字节码经由JRE(Java运行时环境)执行。但他们或许不知道JRE其实是由Java虚拟机(JVM)实现,JVM分析字节码,解释并执行它。作为开发人员,了解JVM的架构是非常重要的,因为它使我们能够编写出更高效的代码。本文中将快速介绍Java中的JVM架构和JVM的各个组件。

2023-12-16 08:00:00 1171

原创 【时序分析】使用skforecast进行时间序列预测并分享14个Python时间序列分析库

时间序列是一系列按照时间顺序排列的数据,这些数据之间的间隔可以是等距的,也可以是不等距的。 **时间序列的预测过程包括通过对时间序列的过去行为进行建模(自回归)或使用其他外部变量来预测时间序列的未来值**。

2023-12-14 10:50:30 1145

原创 【扩散模型】一文教你使用扩散模型生成音频

本文介绍源音频数据与频谱之间的转换方法,以及如何将音频数据转换为频谱所使用的生成器,然后微调一个指定曲风的音频扩散模型,最后将自己的管线上传到Hugging Face Hub。

2023-12-08 08:00:00 1638 1

原创 【扩散模型】ControlNet从原理到实战

本文介绍了 ControlNet,这是一种端到端的神经网络架构,用于学习大型预训练文本到图像扩散模型(在我们的实现中为 Stable Diffusion)的条件控制。 **ControlNet 通过锁定大型预训练模型的参数并复制其编码层,保留了该大型模型的质量和能力。这种架构将大型预训练模型视为学习各种条件控制的强大主干网络。**可训练的副本和原始锁定的模型通过零卷积层连接,权重初始化为零,以便在训练过程中逐渐增长。这种架构确保在训练开始时不会向大型扩散模型的深层特征添加有害噪声,并保护可训练副本中的大型预

2023-12-07 23:45:00 2420 1

原创 【扩散模型】DDIM从原理到实战

DDIM论文提出了一种使过程非马尔可夫的方法(如右图所示),允许跳过去噪过程中的步骤,而不需要在当前状态之前访问所有过去的状态。DDIM最好的部分是,它们可以在训练模型后应用,因此DDPM模型可以很容易地转换为DDIM,而无需重新训练新模型。

2023-11-27 23:45:00 10537 5

原创 【可解释AI】Alibi explain: 解释机器学习模型的算法

可解释的人工智能,也称为模型可解释性,是指以人类观察者可以理解的格式阐明复杂、不透明的机器学习模型做出的预测背后的原因的技术(Molnar,2019)。解释预测的能力有助于建立对模型决策过程的信任,因此是强大的机器学习系统不可或缺的一部分(Bhatt 等人,2020;Klaise 等人,2020)。解释所提供的所需见解在很大程度上取决于解释的使用者,从调试模型的数据科学家到审核模型的监管机构。因此,需要多种方法来满足目标受众的需求(ICO,2019;

2023-11-12 21:28:06 776

原创 【语言模型】快速了解大模型中的13个重要概念

近年来,随着深度学习的发展,一些预训练语言模型,如OpenAI的GPT(Generative Pre-trained Transformer)系列和Google的BERT(Bidirectional Encoder Representations from Transformers)等,采用了自回归的思想。DreamBooth是一种个性化训练一个文本到图像模型的方法,只需要提供一个主题的3~5张图像,就能教会模型有关这个主题的各种概念,从而在不同的场景和视图中生成这个主题的相关图像。这种模型的核心思想是,

2023-11-12 20:38:02 602

原创 【扩散模型】万字长文全面理解与应用Stable Diffusion

Stable Diffusion是一个强大的文本条件隐式扩散模型(text-conditioned latent diffusion model),它具有根据文字描述生成精美图片的能力。它不仅是一个完全开源的模型(代码,数据,模型全部开源),而且是它的参数量只有`1B`左右,大部分人可以在普通的显卡上进行推理甚至精调模型。毫不夸张的说,Stable Diffusion的出现和开源对AIGC的火热和发展是有巨大推动作用的,因为它让更多的人能快地上手AI作画。本文将基于Hugging Face的diffuser

2023-11-11 20:22:05 2200

原创 【扩散模型】实战:创建一个类别条件扩散模型

本文介绍一种给扩散模型添加额外条件信息的方法。具体地,将在MNIST数据集上训练一个以类别为条件的扩散模型。并且可以在推理阶段指定想要生成的是哪个数字。

2023-11-10 23:45:00 1397 2

原创 【LLMs】从大语言模型到表征再到知识图谱

2023年8月14日,张永峰等人的论文《Natural Language is All a Graph Needs》登上arXiv街头,轰动一时!本论文概述了一个名为InstructGLM的模型,该模型进一步证明了图表示学习的未来包括大型语言模型(LLM)和图神经网络(GNN)。它描述了一种单独使用指令调整来teach语言模型文本属性图(text-attributed graph, TAG)的结构和语义的方法。经过指令微调的Flan-T5和Llama-7b能够在多个基准上实现引用图的节点分类和链接预测任务的

2023-11-09 23:44:34 1084

原创 【AI工具】手把手带你使用Gradio分享你的模型

与他人共享机器学习模型、API或数据科学工作流程的最佳方法之一是创建一个交互式应用程序,允许用户或同事在浏览器中尝试演示。Gradio允许您构建演示并共享它们,所有这些都使用Python。通常只需几行代码!

2023-11-08 21:25:00 462

原创 【计算系统】分布式训练:DDP单机多卡并行实战

分布式训练是一种模型训练范式,涉及在多个工作节点上分散训练工作量,从而显著提高训练速度和模型准确性。虽然分布式训练可以用于任何类型的ML模型训练,但将其用于大型模型和计算要求高的任务(如深度学习)是最有益的。

2023-11-07 20:31:13 2075

原创 【ChatGPT】ChatGPT的自定义指令

自定义指令允许您共享您希望ChatGPT在其响应中考虑的任何内容。您的指令将添加到今后的新对话中。此功能允许根据您的偏好自定义ChatGPT的响应,并且可以随时修改或删除以供将来的对话使用。是的当您删除您的OpenAI帐户时,作为该过程的一部分,与您的帐户绑定的自定义指令也将在30天内删除。如果您没有选择不使用您的内容来改善我们的服务,那么我们可能会取消识别聊天记录,并将其与您的帐户解除关联。是的是的,您的指令更新仅反映在未来的对话中。

2023-11-07 11:21:41 776

原创 【操作系统】Cygwin和MinGW的区别与联系是怎样的?

Cygwin和MinGW都是为Windows系统开发者设计的工具。

2023-11-03 00:41:54 934

原创 【计算系统】5分钟了解超算,高性能计算,并行计算,分布式计算,网格计算,集群计算以及云计算的区别

也就是常说的GPU运算,不同于CPU,GPU一般集成了上千个核心于一体,具备普通CPU无法比拟的浮点计算性能,因此非常适用于图像处理、虚拟现实和计算机仿真等一类科学领域的应用,近几年发展火热的人工智能、机器学习等技术应用背后也是依靠GPU运算在做支撑。当然,这个资源池越大,每个用户能够获得的资源就会越多,排队等待的时间也就越短,加上一些合理的编程优化,每个计算任务的耗时就会越短,以此加速科研进程。从效率上看,使用网格计算,可以将一个庞大而复杂的任务分解为多个子任务。还可以经济高效地访问云中的资源。

2023-11-01 23:45:00 6052 1

原创 【扩散模型】理解扩散模型的微调(Fine-tuning)和引导(Guidance)

`微调`(Fine-tuning)指的是在预先训练好的模型上进行进一步训练,以适应特定任务或领域的过程。这个过程在机器学习和深度学习领域中常常被使用。**通过微调,可以使用先前在大规模数据集上训练好的模型来学习新数据的特定特征,以完成特定的任务**。微调的关键在于利用已经学到的通用特征,通过在特定任务数据集上进行少量训练,使模型适应新的任务。`引导`(Guidance)通常指的是**在某种领域或任务中,给予模型特定的指导、提示或信息,以帮助模型更好地学习和完成特定任务**。这可能包括提供额外的信息、特定

2023-10-31 21:03:38 2068 2

原创 【扩散模型】HuggingFace Diffusers实战

Diffusers是用于生成图像,音频甚至分子3D结构的最先进的扩散模型的首选库。无论是寻找简单的推理解决方案还是训练自己的扩散模型,Diffusers都是一个支持两者的模块化工具箱。该library 的设计侧重于性能,简单的简单性和对抽象的可定制性。

2023-10-28 23:45:00 2237 1

原创 【扩散模型】手把手从零构建扩散模型

为了更好的理解扩散模型,我们尝试从零开始搭建它。从一个简单的扩散模型开始,理解其不同部分的工作院里,并对比它们与更复杂的结构之间的不同。首先,我们将回答四个问题:①什么是退化过程(如何向数据添加噪声?),②什么是UNet模型以及③如何从零开始实现一个简单的UNet模型,④如何进行扩散模型的训练以及相关的采样理论;然后,我们将介绍UNet模型的一种改进方法、以及当前流行的DDPM噪声特点、并给出训练目标的差异以及调节时间步和采样方法。

2023-10-26 23:45:00 1077

原创 【Tensorflow】TensorFlow2中提供的几种处理特征列的方法

TensorFlow 2 提供了多种处理特征列的方法,用于对数据进行转换,然后把转换后的数据传入TensorFlow的layers.DenseFeatures层,并将该层作为神经网络的输入层。

2023-09-14 08:00:00 404

原创 【AI理论学习】语言模型Performer:一种基于Transformer架构的通用注意力框架

Performer是一种用于高效处理自注意力机制(Self-Attention)的神经网络架构**。自注意力机制在许多自然语言处理和计算机视觉任务中取得了出色的成绩,但由于其计算复杂度与序列长度的平方成正比,因此在处理长序列时存在问题。为了解决这些问题,Google AI引入了Performer,这是一种**具有线性扩展性的Transformer架构,其注意机制具有线性扩展性**。该框架是通过`Fast Attention Via Positive Orthogonal Random Features`(*

2023-09-12 08:00:00 692

原创 【日常笔记】使用Server过程中可能遇到的一些问题

使用Conda安装Tensorflow-GPU时,它会自动下载依赖项,比如最重要的CUDA和cuDNN等。如果正常执行成功,则返回当前可用的GPU编号。这里我们根据CUDA的版本,选择安装v1.13.0版PyTorch GPU版本。安装新的CUDA驱动的时候,需要查找当前GPU对应的驱动版本,可登录。参数指明了下载PyTorch的通道,优先级比国内镜像更高。注意:建议使用conda安装TensorFlow。可以选择最新版,或者是根据下方的链接选择旧版本。1)登录PyTorch官网,选择安装配置。

2023-09-10 08:00:00 250

原创 【AI理论学习】语言模型:BERT的优化方法

BERT(Bidirectional Encoder Representations from Transformers)是一种自然语言处理中的预训练模型,具有强大的文本理解能力。但是BERT也存在一些缺点,主要体现在如下几个方面:1)训练方法与测试方法不一致。因训练时把输入序列的15%随机置换为MASK标记,但这个标记在测试或微调时是不存在的,因为会影响模型性能。2)对被置换的MASK标记,BERT的损失函数使用约等号,也就是假设那些被标记的词在给定非标记的词的条件下是独立的。但是这个假设并不是(总是

2023-09-08 23:00:00 315

原创 【AI理论学习】语言模型:深入理解GPT-2计算掩码自注意力过程,了解GPT-3工作原理

GPT-2(Generative Pre-trained Transformer 2)和GPT-3(Generative Pre-trained Transformer 3)都是基于Transformer架构的自然语言处理模型,具有强大的文本生成能力。它们的核心是自注意力(self-attention)机制,尤其是GPT-3,该机制在计算上的规模更大。在GPT-2中,掩码自注意力的计算过程如下:首先,将输入文本的每个词嵌入到高维空间中,形成词嵌入向量。然后,通过多层的注意力头(attention hea

2023-09-06 23:00:00 291

原创 【AI理论学习】语言模型:掌握BERT和GPT模型

ELMo模型可以根据上下文更新词的特征表示,实现了词向量由静态向动态的转变。但是由于ELMo依赖于双向语言模型的架构,导致其训练只能适用于小规模的语料库,计算效率并不高。为了解决这些问题,基于Transformer框架的BERT和GPT模型被提出来。

2023-09-04 23:00:00 624

The brief introduction of diffusion model and stable diffusion

扩散模型的兴起可以被视为人工智能生成艺术领域最近取得突破的主要因素。而稳定扩散模型的发展使得我们可以通过一个文本提示轻松地创建美妙的艺术插图。 Stable Diffusion是一个文本到图像的潜在扩散模型,由CompVis、Stability AI和LAION的研究人员和工程师创建。它使用来自LAION-5B数据库子集的512x512图像进行训练。使用这个模型,可以生成包括人脸在内的任何图像,因为有开源的预训练模型,所以我们也可以在自己的机器上运行它

2023-04-14

转录调控中的非编码RNAs,以及肿瘤细胞中氨基酸代谢调控PPT

Integrating Multi-Omics Data, Metabolic regulation of tumor cells

2022-11-06

集成学习原理与应用介绍(随机森林)

Random forest is a commonly-used machine learning algorithm, which combines the output of multiple decision trees to reach a single result.

2022-11-06

桥区通航风险问题分析与案例研究

近几年国内桥梁日渐增多、船舶趋于大型化、船舶通航密度增大等因素给船和桥带来了巨大的风险。桥区通航风险的研究显得尤为重要,为了防患于未然,提前进行预报,及时采取应对措施,提高船舶通航时安全性降低风险有重大意义。

2022-10-28

大数据项目之数据挖掘子系统设计

数据挖掘系统是辅助知识库管理人员及常规设计人员对进行知识检索、并不断扩充的知识库容量的应用端口。

2022-10-28

DOES ENFORCEMENT OF INTELLECTUAL PROPERTY RIGHTS MATTER?

DOES ENFORCEMENT OF INTELLECTUAL PROPERTY RIGHTS MATTER IN CHINA? EVIDENCE FROM FINANCING AND INVESTMENT CHOICES IN THE HIGH-TECH INDUSTRY

2022-10-28

Deep Facial Non-Rigid Multi-View Stereo

We present a method for 3D face reconstruction from multi-view images with different expressions. We formulate this problem from the perspective of non-rigid multi-view stereo (NRMVS).

2022-10-28

为旅游交通服务的电池充电桩

电动滑板车有助于减少旅游交通对环境的影响,但它们的行驶范围有限,并且使用受充电设施位置的影响。本研究使用整数规划来优化电池更换站的位置和数量。并对每个站点的服务容量进行敏感性分析。

2022-10-28

H3C全国网络技能大赛

2014年H3C全国网络技能大赛比赛大纲,为参加比赛的同学提供参考

2014-08-05

校园网IP地址规划

学习网络必备文档,学习学习校园网IP地址规划,理解IP意义

2014-06-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除