真的没有脑袋-CSDN博客

原创机器学习基础相关问题

K-means 的优化目标是最小化样本到其所归属簇中心的距离平方和（SSE，Sum of Squared Errors）。因此，每一次迭代都单调减小（或保持不变）损失函数，而 SSE 有下界（不能为负数），所以一定会收敛。在实际实现中（如 Scikit-learn），为了避免无限循环或耗时过长，常设定最大迭代次数（如 300）。K-means算法在有限步数内一定会收敛，但收敛到的可能是局部最优解而非全局最优解。所以从实现角度看，K-means 不一定“完全”收敛，但这是一种工程权衡。

2025-06-04 11:17:26 357

原创大模型相关

i. 规模扩增（Scaling up）是指在模型设计和训练过程中，通过增加模型的参数、数据量或计算资源，以提升模型的能力和性能。iii. 现代的大模型（例如GPT系列）采用了基于自回归的语言建模方法，即通过逐词生成（一个词接着一个词生成），它们不仅能理解文本，还能生成连贯的文本，这使得它们可以应用到生成式任务，如文本生成、对话、文章写作等。11. 专家选择多样化：在每次路由时，多样化专家选择的方式，可以通过加入随机性或使用温度参数等方法，增加模型在专家选择上的多样性，减少路由失效的概率。

2025-06-02 16:04:19 577

原创 python编程相关

i. 浅拷贝（shallow copy）：浅拷贝创建一个新的对象，但是只复制原始对象的基本数据类型的字段或引用（地址），而不复制引用指向的对象。闭包（Closure）是 Python 中的一种特殊现象，指的是一个函数对象 “记住” 并可以访问其外部作用域的变量，即使在外部函数已经执行完毕并返回后，内部函数仍然能够访问这些变量。3.创建工厂函数：闭包常用于工厂函数模式（工厂函数一般返回的是一个类的实例，或者返回一个符合某种接口的对象），在运行时创建不同的函数，这些函数共享某些配置或者变量。

2025-06-02 01:14:58 29

原创模型评估相关问题

KL散度的理论意义在于度量两个概率分布之间的差异程度，当KL散度越大的时候，说明两者的差异程度越大；而当KL散度小的时候，则说明两者的差异程度小。如果两者相同的话，则该KL散度应该为0。AUC（Area Under the Curve）是衡量二分类模型预测性能的一种常用指标，特别是当我们关注排序能力（即，模型将正类排在负类前面的能力）时。优势：AUC 不依赖于特定的阈值，适用于不平衡数据和不确定阈值的情况。它衡量的是模型的排序能力，即模型在预测时，正类的概率应该大于负类的概率。用来衡量模型识别负类的能力。

2025-06-02 00:26:34 23

原创模型训练相关的问题

处理缺失值和异常值，然后对数据进行归一化或者标准化处理，根据实际情况决定是否需要进行特征工程（指从原始数据中提取、转换或创建出新的特征，以便提升机器学习模型的性能和准确性，如对数变换、组合特征、降维等），目前特征工程只用在传统机器学习中，深度学习中基本不用。d) 数据问题：数据不平衡或者数据预处理问题，检查数据集的分布，确保数据没有问题。h) 数据泄漏：如果在训练过程中出现了数据泄漏（例如训练数据和验证数据存在重叠，或者特征和目标之间存在不合理的关联），也可能导致损失值不收敛。b) 重复数据：删除。

2025-06-01 23:57:01 125

原创归一化相关

与批量归一化不同，层归一化是在每个样本的所有特征（所有通道一起）上进行归一化，而不是在整个批次的维度上。在测试时，所使用的均值和方差是整个训练集的均值和方差。整个训练集的均值和方差的值通常是在训练的同时用移动平均法来计算的。在每一层的输入进行归一化处理，使其在每个批次内具有零均值和单位方差。作为LayerNorm的替代方案，旨在简化归一化过程，降低计算复杂度，同时保持或提升模型的性能。对每个输入样本单独进行归一化，适用于每个个体都是独立的且每个通道都有自己的含义的时候。

2025-06-01 23:25:40 150

原创 Transformer相关

ii. 如果使用同一个权重矩阵来生成Q和K，那么Q和K 将会是同样的表示，Q和 K之间的点积将变成类似于自身的相似性计算，会导致单一的注意力模式（模型可能倾向于对自己最关注，而不是考虑其他token的影响，可能会导致注意力矩阵接近于单位矩阵，这在多头注意力机制下会显得单一且局限）和缺乏多样性（不同的Query和Key可以捕捉到输入序列中更复杂的关系，如果它们相同，模型将无法有效地对多样化的上下文信息进行建模）。具体而言，对于输入的每个单词，生成三个向量：查询（Query），键（Key），值（Value）。

2025-06-01 15:46:50 1018

原创常见激活函数

2025-05-23 23:37:52 223

原创深度学习优化器相关问题

结合了Momentum和 RMSProp 的思想，旨在通过计算梯度的一阶矩估计和二阶矩估计来调整每个参数的学习率（理解为变化的梯度为Momentum得到的梯度，学习率为原本的学习率/历史梯度平方和的加权）针对不同的变量提供不同的学习率，设置一个全局的学习率，而实际的学习率与以往的梯度开方的和成反比。由于momentum考虑了历史的梯度信息，可以加速优化的进程，但如果参数已经处于最优附近，很有可能会因为累积的梯度导致过大的动量，再一次远离最优。只维护一个历史的梯度平方的指数加权，然后用其来影响当前的梯度。

2025-05-23 17:27:50 1053 1

原创概率相关问题

面试中与概率相关的问题

2025-05-15 17:05:51 913

原创 Spatiotemporal Clues Disentanglement Network for Self-Supervised Skeleton-Based Action Recognition

2024 AAAI。

2025-03-31 16:28:14 703

原创 AnchorGT: Efficient and Flexible Attention Architecture for Scalable Graph Transformers

2024IJCAI。

2025-03-31 15:17:41 364

原创 Dynamic Semantic-Based Spatial–Temporal Graph Convolution Network

本文提出动态语义时空图卷积网络（DS-STGCN），通过动态语义空间卷积（DS-SGCN）编码关节/边类型信息，动态语义时间卷积（DS-TGCN）采用因果卷积保留帧顺序，以提升骨架动作识别的准确性和泛化能力。

2025-03-19 10:13:25 766

原创基于transformer库中的大模型与LORA进行特征提取

将上述文件全部下载保存到自定义的flan-t5-base-samsum文件夹中，这样做的目的是为了避免网络问题导致模型调用的时候下载失败。假设已经输入已经处理好了特征的形式，维度为N*L*C，N为样本数，L为序列长度，C为特征通道数。后续直接用model进行训练即可。

2024-12-23 16:58:26 234

原创 MINILM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers

提出了一种高效的模型压缩方法，称为MiniLM通过深度自注意力蒸馏（来压缩大规模预训练语言模型MiniLM通过教师模型最后一层的自注意力分布和值关系指导学生模型的训练学生模型无需与教师模型层数或隐藏维度严格匹配，实现了更高的灵活性和效率。研究背景LLM在性能上表现优异，但它们通常包含数亿甚至数十亿参数：对硬件资源要求高、训练慢现有模型压缩技术的不足参数剪枝：降低了部分参数的复杂性，但可能会显著影响模型性能。

2024-11-18 22:42:54 439

原创 STDM-transformer: Space-time dual multi-scale transformer network forskeleton-based action recognit

提出了一种时空双重多尺度Transformer,旨在通过细粒度和粗粒度的运动信息来进行多尺度协作表示：分别在细粒度和粗粒度层次上提取和融合特征:细粒度层通过空间-时间多尺度划分策略和空间时间模块提取局部运动特征粗粒度层则通过层次化的多尺度渐进融合策略建模全局运动上下文。

2024-11-16 20:40:07 461

原创 Interactive Spatiotemporal Token Attention Network for Skeleton-based General Interactive Action Rec

交互式时空令牌注意力网络（ISTA-Net）的新方法，用于基于骨架的通用交互动作识别传统方法采用晚期融合和共注意力机制来捕捉互动关系，但在应对更多互动实体时，学习能力有限或效率较低；此外，这些方法假设每个实体的先验已知，因此在处理多样化主体时缺乏通用性。ISTA-Net引入了交互式时空令牌（IST），以统一方式表征多实体的运动。通过增加实体维度，IST可以更好地表达互动特征。研究背景交互动作：涉及多个实体之间相互依赖的物理动态的有目的行为。

2024-11-15 12:15:15 339

原创 Spatial-Temporal Specialized Transformer for Skeleton-based Action Recognition

现有的工作在处理骨架数据时，在时间和空间上采用的是相同的方式，并没有考虑到时间和空间维度的差异提出了时空特化erSTSTSpatial Transformer Block：对每一帧的数据进行单独的建模：捕捉骨架在时间维度上的整体运动模式引入了一种多任务自监督学习方法，通过生成不同情况下的干扰样本，增强模型的鲁棒性。

2024-11-14 10:23:52 451

原创 TinyBERT: Distilling BERT for Natural Language Understanding

传统的预训练语言模型，如BERT，虽然在自然语言处理任务中取得了显著进展，但由于其计算开销大，难以在资源有限的设备上高效执行为了解决这个问题，TinyBERT提出了一个新颖的蒸馏方法，专门针对基于的模型进行知识蒸馏。通过这种方法，大型BERT模型中蕴含的丰富知识可以有效地转移到较小的学生模型TinyBERT上。实验结果表明，TinyBERT44层模型）能够达到BERTBASE在GLUE基准测试中的96.8%的性能，同时在模型大小和推理速度上有显著优化：模型体积缩小了。

2024-11-06 16:54:27 1553

原创 Transformer：Is Space-Time Attention All You Need for Video Understanding?

提出了一种基于自注意力机制的新型视频分类方法，称为“。与传统的卷积神经网络（CNN）不同，是完全基于自注意力操作的，不使用卷积操作。设计了“分离注意力”机制，在视频动作识别任务中表现优异，在和等基准上达到了最佳的性能。研究背景1. 自然语言处理领域中自注意力模型（如Transformer）的成功：能够高效捕捉词语间的长程依赖关系2. 传统的视频分析方法主要依赖2D和3D卷积神经网络（CNN。

2024-11-02 17:15:08 426

原创低秩自适应（LORA）: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

提出了一种高效的参数微调方法，旨在解决对大规模预训练语言模型进行全参数微调时的高成本问题。LoRA通过在架构的每层中注入可训练的低秩分解矩阵，减少了下游任务训练时所需的可训练参数数量，同时保持预训练模型的权重冻结。这种方法在降低计算和内存需求的同时，能够在性能上与全参数微调相媲美甚至超越例子说明：相比使用Adam优化器进行微调的GPT-3 175B模型，LoRA能够将可训练参数数量减少10,000倍，同时将GPU内存需求降低3倍。研究背景。

2024-10-28 10:10:15 320

原创 Do Transformers Really Perform Bad for Graph Representation

虽然在自然语言处理和计算机视觉等领域取得了巨大的成功，但在图级别预测任务中的表现不如主流的GNN在图中利用Transformer的关键在于有效地将图的结构信息编码到模型中提出了Graphormer，它基于标准的架构，结合了几种简单但有效的图结构编码方法更好地处理图结构数据。

2024-10-18 20:41:15 451

原创 Can Transformer and GNN Help Each Other？

摘要Transformer难推广到图数据：i图数据复杂性高。(ii)未能捕获复杂且纠缠的结构信息。GNN可以融合图结构和节点属性，但感受野有限。基于上述问题，提出了一种名为TransGNN的新模型，其中层和GNN层交替使用以相互改进。研究背景：对于图数据，每个节点需要与所有其他节点进行全局的注意力计算，导致时间和空间复杂度为O(N²)，当图规模较大时，会引发内存不足等问题主要基于节点之间的信息聚合，而不依赖图中的边，这导致它在捕捉复杂图拓扑结构时表现不佳GNN。

2024-10-18 08:56:43 509

原创 Graph Transformer Networks

大多数GNNs假设图结构是固定的、同构的，这限制了它们在包含多种类型节点和边的异质图上的效果。本文提出了GTNs），该网络能够通过识别未连接节点之间的重要连接生成新的图结构，从而无需领域特定的预处理，在新的图上学习更强大的节点表示。研究背景目前GNN的局限性同质图：如果图上有噪声，缺失连边或者有错误的连边，就会导致与图上错误的邻居进行无效的卷积异质图：直接当作是同质图处理，丢失信息使用人为设定的元路径将异质图转化成同质图，不能充分利用图中的信息。

2024-10-14 11:45:02 407

原创基础论文： BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT的设计目的是目的是捕捉输入文本的上下文双向信息，通过无监督预训练（如 Masked Language Model 任务）后，可以通过微调应用于各种下游任务，如文本分类、命名实体识别、问答等。

2024-10-09 22:08:05 1413

原创基础论文：Attention Is All You Need

提出一种完全基于注意力机制的架构，成为transformer，舍弃了之前集递归卷积架构。

2024-10-07 16:40:55 407

原创 GPT论文阅读：Language Models are Unsupervised Multitask Learners

abstractGPT-2是一个参数量为1.5B的transformer，在zero-shot设定下，在8个测试语言建模数据集中，有7个取得了最先进的结果最主要的贡献是在没有使用微调的情况下，在参数量更大的模型进行预训练，通过prompt和预测层在多个任务中达到SOTA。

2024-09-24 17:26:26 468 1

原创 GPT论文阅读：Improving Language Understanding by Generative Pre-Training

abstract在未标记文本语料库上对语言模型进行生成式预训练，然后对每个特定任务进行区分性微调。method训练过程包括两个阶段。第一阶段是在大型文本语料库上进行自监督训练。第二阶段在带标签数据进行微调。

2024-09-24 15:46:40 451 1

原创深度学习因果论文汇总

深度学习中的因果理论主要包括为因果发现、因果推断、结构化因果模型（SCM）、因果表示学习、因果迁移学习和反事实推断。

2024-09-20 11:15:59 446 3

原创一种用于细粒度动作检测的多流双向递归神经网络

论文阅读：A Multi-Stream Bi-Directional Recurrent Neural Network for Fine-Grained Action Detection

2023-02-28 01:12:30 404

原创用于帕金森步态评估的多尺度稀疏图卷积网络

论文阅读：用于帕金森步态评估的多尺度稀疏图卷积网络

2023-02-23 16:11:51 632 1

原创基于骨架的动作识别方法：ST-GCN

ST-GCN论文阅读

2023-02-17 14:10:57 2930

原创因果论文：Proactive Pseudo-Intervention

因果论文阅读

2023-02-03 21:27:24 516

mistydou的博客