自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 浅谈USART_RX_STA各位的描述以及是如何实现数据接收的

①首先我们来看一下MDK对各位的描述可以发现0~13位接受的是数据个数(填满相当于十进制的8191),②那么既然0~13位数据量这么大,代码是如何实现对14、15位的修改呢?废话不多说,先上实现代码(原子哥编写): void USART1_IRQHandler(void) { u8 Res; #ifdef OS_TICKS_PE...

2019-08-20 17:54:28 25152 10

原创 【论文精读】| KBS2023-TMBL-多模态情感分析系列文章解读

多模态情感分析是人机交互研究的重要方向,它可以通过同时分析文本、视频和声音特征来准确识别个体的情绪状态。尽管当前的情绪识别算法使用多模态融合策略表现良好,但仍然存在两个关键挑战。第一个挑战是在融合之前有效提取模态不变和模态特定的特征,这需要不同模态之间的深层特征交互。第二个挑战涉及区分模态特征之间的高级语义关系的能力。为了解决这些问题,我们提出了一种新的模态绑定学习框架,并重新设计了 Transformer 模型的内部结构。我们提出的模态绑定学习模型通过结合双模态和三模态绑定机制解决了第一个挑战。

2024-05-13 19:13:39 902

原创 【技术文档】pytorch框架下的各类加速训练

1. acclerate2. ddp3. wandb

2023-11-17 23:27:53 93

原创 [AIGC2Face]人脸AIGC相关笔记

这里有以下几个主要的坑:(1)首先sdwebui需要去固定一下最新的1.6版本的几个包的版本(2)其次是需要使用官网的torch安装方式去安装torch(不能用./webui.sh安装的 or pip whl手动安装的)(3)然后是要注意 需要使用双卡去 启动sdweb 虽然后面推理是单卡单卡启动下面这个文件中的会有个device受到进程影响不受控+1的错误,因为这里的ddp写法是有点问题的,会导致cuda的device不一致导致bug。

2023-11-06 15:44:19 194

原创 【具身智能】论文系列解读-RL-ViGen & ArrayBot & USEEK

视觉强化学习(Visual RL)与高维观察相结合,一直面临着分布外泛化的长期挑战。尽管重点关注旨在解决视觉泛化问题的算法,但我们认为现有的基准测试存在问题,因为它们仅限于孤立的任务和泛化类别,从而破坏了对智能体视觉泛化能力的综合评估。为了弥补这一差距,我们引入了 RL-ViGen:一种新颖的视觉泛化强化学习基准,它包含不同的任务和广泛的泛化类型,从而有助于得出更可靠的结论。此外,RL-ViGen 将最新的泛化视觉 RL 算法纳入统一的框架中,实验结果表明,没有任何一种现有算法能够跨任务通用。

2023-08-28 20:02:20 681

原创 【具身智能】前沿思考与总结(DALL-E-Bot & TinyBot)

DALL-E-Bot:将网络规模的扩散模型引入机器人探索机器人网络规模的工作。DALL-E-Bot 使机器人能够,首先推断这些对象的文本描述,然后生成代表这些对象的自然、类人排列的图像,最后根据该图像对对象进行物理排列目标图像。我们证明,使用 DALL-E 可以实现,无需任何进一步的示例安排、数据收集或训练。由于 DALL-E 的网络规模预训练,DALL-E-Bot 是完全自主的,并且不限于一组预定义的对象或场景。

2023-08-06 12:30:57 439

原创 【具身智能】前沿思考与总结(谷歌&微软)

只需要告诉机器人它要做的任务是什么,机器人就会理解需要做的事情,拆分任务动作,生成应用层控制指令,并根据任务过程反馈修正动作,最终完成人类交给的任务。整个过程基本不需要或者仅需少量人类的介入和确认,基本实现了机器人自主化运行,无需掌握机器人专业操作知识的机器人应用工程师介入。

2023-08-06 11:24:10 393

原创 【具身智能】系列论文解读(CoWs on PASTURE & VoxPoser & Relational Pose Diffusion)

为了使机器人普遍有用,即使没有对域内数据进行昂贵的导航训练(即执行零样本推理),它们也必须能够找到人们描述的任意对象(即由语言驱动)。我们在统一的环境中探索这些功能:语言驱动的零样本对象导航(L-ZSON)。受到图像分类开放词汇模型最近成功的启发,我们研究了一个简单的框架,CLIP on Wheels (CoW),使开放词汇模型无需微调即可适应此任务。为了更好地评估 L-ZSON,我们引入了 PASTURE 基准,该基准考虑寻找不常见的对象、由空间和外观属性描述的对象以及相对于可见对象描述的隐藏对象。

2023-08-06 10:58:54 612

原创 【效率工具】

Below is a paragraph from an academic paper. Polish the writing to meet the academic style, improve the spelling, grammar, clarity, concision and overall readability. When necessary, rewrite the whole sentence. Furthermore, list all modification and explai

2023-07-15 22:42:35 122

原创 【文章系列解读】Nerf

三维重建和渲染。(1)三维重建部分本质上是一个2D到3D的建模过程,利用3D点的位置(x,y,z)及方位视角(θ,φ)作为输入,通过多层感知机(MLP)建模该点对应的颜色color(c)及体素密度volume density(σ),形成了3D场景的”隐式表示“(2)渲染部分本质上是一个3D到2D的建模过程,渲染部分利用重建部分得到的3D点的颜色及不透明度沿着光线进行整合得到最终的2D图像像素值。在训练的时候,利用渲染部分得到的2D图像,通过与Ground Truth做L2损失函数。

2023-07-12 22:41:19 799

原创 【论文解读系列】MLLM研究综述

多模态大语言模型(Multimodal Large Language Model, MLLM)是近年来兴起的一个新的研究热点,它利用强大的大语言模型作为大脑来执行多模态任务。MLLM令人惊讶的突发能力,如基于图像编写故事和无ocr数学推理,在传统方法中是罕见的,这表明了人工通用智能的潜在途径。在本文中,我们旨在追踪和总结最近的进展mllm。首先,我们提出了传销营销的概念,并对其相关概念进行了描述。

2023-07-02 18:07:42 1014

原创 【文章系列解读】AI绘图必读模型:Derambooth和Textual Inversion

总体而言,文章想要实现的效果是输入(目前看是单物体的),通过文本“a [v] [class]”,对模型进行(例如图片上坐上,输入是若干张同一只狗的图片,以及a [v] [dog])。为了避免模型过拟合在输入的狗上,文章引入了。保留损失意指,先通过预训练模型生成若干张狗这一类的图片。

2023-06-28 21:49:28 1070

原创 【源码解读】扩散模型核心:DDPM专题-结合源码讲解

论文花极大篇幅讲数学推导,可是我看不懂。论文没有给出模型架构图和详细的训练解说,而这是我最关心的部分。本文直接从源码入手,深度剖析DDPM

2023-06-28 21:43:51 977 2

原创 【论文系列解读】LLM构建通用视觉(SUR-Adapter)&声音模型(Tango)

声音和图像领域,大一统的模型!使用LLM进行引导

2023-06-25 11:44:33 364

原创 【论文系列解读】StableDiff总结

可以参考此处:https://blog.csdn.net/weixin_40920183/article/details/130652651总的来说,diffusion就是分为训练和采样两个阶段。(A)训练阶段:其中,训练阶段的目标是将加噪后的隐向量输入到UNetModel 来输出预估噪声,和真实噪声信息标签(初始化使用随机高斯噪声Gaussian Noise)作比较来计算KL 散度 loss,并通过反向传播算法更新 UNetModel 模型参数;

2023-06-17 22:33:50 3283 7

原创 【论文系列解读】MiniGPT-4: 增强视觉语言理解与先进的大型语言模型

minigpt是先提出来的,将视觉编码器和LLM对齐,blip2和它还是有蛮大区别的。minigpt4主要核心在于训练Linear的时候采用了2个阶段。第一个阶段使用low-level的数据集(500万对)进行训练,第二个阶段针对low-level的数据集进行了手动筛选(使用GPT生成每个图片的文字标题-5000对,并且手动筛选出生成出来比较符合图片内容的图像文本对-3500对),然后再用这些高质量的数据集去微调模型。

2023-06-17 11:17:56 2481

原创 【论文解读系列】Blip-2:引导语言图像预训练具有冻结图像编码器和大型语言模型

泛化性很强;模型针对中文数据库还可以再优化;文字生成的长度不长(虽然文章中说限制长度更符合人类直接,但是模型很多信息也无法输出更完美)由于大规模模型的端到端训练成本不断增加,视觉和语言预训练的成本已经越来越高。本文提出了BLIP-2,一种通用且高效的预训练策略,它可以从现成的冻结预训练图像编码器和冻结大型语言模型中引导视觉-语言预训练。BLIP-2通过一个轻量级的来弥合模态差距,并在两个阶段进行预训练。第一个阶段从冻结图像编码器引导视觉-语言表示学习。第二个阶段从冻结语言模型中引导视觉-语言生成学习。

2023-06-16 23:15:32 3987

原创 AOBERT:用于多模态情感分析的多模态合一BERT

在这项研究中,情绪分析和情绪检测是使用三种模式进行的:文本、视觉和语音。XT∈RdT×LXV∈RdV×LXS∈RdS×LXT​∈RdT​×LXV​∈RdV​×LXS​∈RdS​×L其中 XT、XV 和 XS 分别指的是文本、视觉和语音。这些是长度为 L 的向量,维度分别为 dT、dV 和 dS。因为 L 是输入大小的固定长度,所以小于 L 的某些输入将包含零填充以适应大小。

2023-04-25 23:42:40 2489 2

原创 IPM2023-PXMixer-多模态情感分析系列文章解读

多模态情感分析旨在判断互联网用户在各种社交媒体平台上上传的多模态数据的情感。(1)然而,一方面,现有研究侧重于文本、音频和视觉等多模态数据的融合机制,而忽略了文本与音频、文本与视觉的以及,导致情感分析存在偏差。(2)另一方面,多模态数据带来与情感分析,影响融合效果。

2023-04-24 22:32:45 1026 2

原创 多模态情感识别-MISA: baseline解读

不同模态数据分布的异质性使得模态融合的难度较高

2023-04-23 19:25:57 2424 2

原创 【学习笔记】多模态任务

文图转换视觉推理。

2023-03-29 16:57:45 157

原创 【技术文档】windows的anaconda

解决VSCode启动conda环境问题bug三部曲。这一步你打开powershell,按照提示来即可。

2023-03-04 21:07:19 71

原创 【技术文档】机器学习踩过的坑

1s 三轮4min 1轮。

2023-02-22 16:32:45 90

原创 【技术文档】学术论文配色大全

配色大全

2023-01-09 17:55:21 836

原创 【学习笔记】NMI2021-MCMG

基于机器学习的生成模型可以从头开始产生具有理想物理化学和药理特性的新分子。已经提出了许多优秀的生成模型,但对大多数现有模型来说,分子生成任务中的多目标优化仍然相当具有挑战性。在这里,我们提出了多约束分子生成(MCMG)方法,该方法可以通过知识蒸馏将条件变压器和强化学习算法相结合来满足多个约束。使用条件变压器通过高效学习并将结构-属性关系纳入有偏见的生成过程来训练分子生成模型。然后使用知识蒸馏模型来降低模型的复杂性,以便通过强化学习有效地对其进行微调,并增强生成分子的结构多样性。

2023-01-07 21:35:37 610 2

原创 【学习笔记】ICLR2022-SyNet

分子设计和合成规划是分子发现过程中的两个关键步骤,我们建议将其作为条件合成途径生成的单一共同任务来制定。我们报告了一种生成合成途径的摊销方法,作为以目标分子嵌入为条件的马尔可夫决策过程。这种方法使我们能够以自下而上的方式进行合成规划,并通过从优化的条件代码解码来设计可合成的分子,这表明同时解决设计和合成问题的潜力。该方法利用神经网络,根据反应模板的离散动作空间中编码的反应性规则,一次一个反应步骤,概率地模拟合成树。我们在可购买的化合物池和专家策划的模板列表中生成的数十万条人工路径上训练这些网络。

2022-12-22 12:14:59 609

原创 【学习笔记】BMC2022-AProt

背景:借助深度学习的进步,蛋白质3D结构预测的准确性得到了显著提高。在最近的CASP14中,Deepmind证明了他们新版本的AlphaFold(AF)可以产生几乎接近实验结构的高精度3D模型。AF的成功表明,序列的多序列对齐包含丰富的进化信息,从而导致准确的3D模型。尽管AF取得了成功,但只有预测代码是开放的,训练类似的模型需要大量的计算资源。因此,开发一个更轻的预测模型仍然是必要的。结果:在本研究中,我们提出了一种新的蛋白质3D结构建模方法,即A-Prot,使用最先进的蛋白质语言模型之一MSA变压器。

2022-12-14 16:59:27 395

原创 【学习笔记】ICML2022-GraphBP

药物发现的一个基本问题是设计与特定蛋白质结合的分子。为了使用机器学习方法解决这个问题,我们在这里提出了一个名为GraphBP的新颖而有效的框架,通过将特定类型和位置的原子逐个放置在给定的结合位点来生成与给定蛋白质结合的3D分子。特别是,在每个步骤中,我们首先使用3D图形神经网络,从中间上下文信息中获得几何感知和化学信息表示。此类上下文包括给定的绑定位点和放置在前面步骤中的原子。其次,为了保持理想的等方差特性,我们根据设计的辅助分类器选择一个局部参考原子,然后构建一个局部球坐标系。

2022-12-14 00:31:17 539

原创 【学习笔记】PNAS2022-AIphaDrug

本文展示2022年发表在PANS上的一篇分子生成的文章,详细包含了论文理解以及代码运行逻辑,欢迎查阅,转发和关注!

2022-12-09 17:37:34 559

原创 【学习笔记】ICLR2022-GNNRefine

抗体是多功能蛋白质,与病毒等病原体结合并刺激适应性免疫系统。抗体结合的特异性由这些Y形蛋白质尖端的互补性决定区(CDR)决定。本文提出了一种生成模型,用于自动设计具有增强结合特异性或中和能力的抗体的CDR。之前的生成方法将蛋白质设计表述为结构条件序列生成任务,假设先验地给出了所需的3D结构。相比之下,我们建议将CDR的序列和3D结构作为图表共同设计。我们的模型在迭代细化其预测的全局结构的同时,自动回归地解开序列。推断的结构反过来指导后续的残留物选择。

2022-12-08 18:56:05 1121

原创 【技术文档】R语言使用教程:从入门到入土

R语言在细胞间通信中的应用教程

2022-11-24 15:25:26 187

原创 【学习文档】PythonSkills

Python写作过程的一些心得第一章:文件导入导出规范1.1 Excel和Text操作第二章:算式运算规范2.1 四则操作第三章:内置函数3.1 循环中的内置3.2 字符串的内置3.2 整形的内置3.3 序列的内置第一章:文件导入导出规范1.1 Excel和Text操作(1) with open(fn_src, ‘rb’) as f: VS with open(fn_dst, ‘wb’) as f:fn_src = test.txt;fn_dst = result.csv or r

2022-03-14 18:54:59 1124

原创 【技术文档】机器学习模型搭建

目录第一章、各类包命令大全1.1 Sklearn1.2 Numpy1.3 pandas1.4 excel操作专题第二章、使用插件2.1 Jupyter第一章、各类包命令大全1.1 Sklearn验证函数# 交叉验证函数from sklearn.model_selection import StratifiedShuffleSplit常用分类算法# 交叉验证函数from sklearn.ensemble import RandomForestClassifier # 随

2022-03-10 21:14:29 2121

原创 【技术文档】系统美化使用的坑&解决思路

Shell_VScode[背景]由于看朋友MAC上的oh my zsh很酷,因此想在Ubuntu上也配一个,结果发现Ubuntu的zsh没有美化的话,使用感不如原生的bash,即使美化用着也不舒服,然后就萌生启动默认bash的想法。坑1 zsh按照网友提供的各自方法都无功而返,弄了快2H,都无法默认bash启动解决办法1 直接卸载了—>>>/usr/bin & rm -rf坑2 zsh卸载很舒适,但是VSCode又不干了,找不到shell,完全卸载code并重装都没有用

2022-03-01 19:32:20 399

原创 【技术文档】Ubuntu系统使用

Ubuntu跑算法心得记录一、Ubuntu终端各种快捷命令1.1 终端美化1.2 信息传输1.2.1 与Windows互传信息二、Pytorch使用2.1 Pytorch安装2.2 Conda内嵌Pip安装2.3 Pytorch技巧2.3.1 技巧函数2.3.2 功能函数三、其他各类包的安装使用3.1 imageio四、路径问题汇总2.1 Python调试路径一、Ubuntu终端各种快捷命令1.1 终端美化1.2 信息传输1.2.1 与Windows互传信息二、Pytorch使用2.1 Pyto

2022-02-27 18:55:48 2074 1

原创 【技术文档】视频雨条纹去除方法汇总~持续更新

视频雨条纹去除会刊_方法解析

2022-02-25 17:27:43 2757 1

原创 【技术文档】PySpark学习笔记~ 持续更新

PySpark实战第一章:了解Spark1.1 什么是Apache Spark1.2 Spark作业和API1.3 Spark2.0的结构1.4 小结第二章:弹性分布式数据集2.1 RDD的内部运行方式第一章:了解Spark快速易用的处理复杂数据的矿机1.1 什么是Apache Spark我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将会带来全新的写作体验;在创作中心设置你喜爱的代码

2022-02-25 11:51:16 923

原创 【学习文档】Python路径

开帖记录下Python语言的相关问题今天在做BLS代码复现的时候,发现有个“绝对文件”和“相对文件”概念,怎么读取都导致失败,百度相关文章也没有发现比较好的一个说法。这里给出正确路径与错误路径,供读者自行品味:正确路径: 'E:/Jack/Documents/001DeskTop/BLS相关/Regression/BLS_Regression-Matlab/abalone.mat'错误路径:"E:\Jack\Documents\001DeskTop\BLS相关\Regression\BL

2021-01-20 22:44:02 316 4

原创 【技术文档】算法研究:CEEMDAN

问:一个信号加入白噪声 有什么影响呀答:优点:白噪声是多组互相独立的序列,混到原始数据里面去,就可以帮助分解算法将原始数据里面难以分开的模态(如两个模态频率特新很相近,即模态混叠问题)利用白噪声这种特新,放大他们的不相关程度,从而得以提取出原来不可分的两个模态。这是我研究后的理解,文章中可以不用说这么细缺点:如果白噪声序列都是正序列(一般是0-1的“随机”数),那么加入白噪声后,得到的所有模态相加起来得不到原始序列,会多出来加入的白噪声(分解得到的模态越多,混入的白噪声越多),从而增大了重构误差。所以提

2020-11-18 22:53:38 3298

DMA实验.docx

DMA实验的讲解以及普遍问题分析,有助于对通信知识的理解

2019-08-30

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除