自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(41)
  • 收藏
  • 关注

原创 【论文阅读】(PDFormer)Propagation Delay-Aware Dynamic Long-Range Transformer for Traffic Flow Prediction

交通流量预测是智能交通系统的核心技术之一,其主要挑战在于有效建模交通数据中的复杂时空依赖性。现有的基于图神经网络(GNN)的模型存在三个主要限制:静态空间依赖性建模、短程空间信息考虑不足、忽略交通条件传播的时间延迟。为此,本文提出了一种新的传播延迟感知的动态长程变换器(PDFormer),用于准确的交通流量预测。具体来说,设计了空间自注意力模块来捕捉动态空间依赖性,引入了两个图掩码矩阵来突出短程和长程空间依赖性,并提出了交通延迟感知的特征转换模块来显式建模空间信息传播的时间延迟。

2024-07-31 18:52:05 320

原创 【论文阅读】Mamba: Linear-Time Sequence Modeling with Selective State Spaces

Mamba模型基于Transformer架构,旨在解决传统Transformer在长序列上的计算效率问题。通过引入选择性状态空间SSMs(Selective State Spaces),Mamba能够在保持线性时间复杂度的同时,实现与Transformer相媲美的性能。首先,简单地让SSM参数成为输入的函数,解决了它们在离散模态方面的弱点,允许模型根据当前令牌选择性地沿序列长度维度传播或忘记信息。其次,尽管这一变化阻碍了高效卷积的使用,但在循环模式下设计了一种硬件感知的并行算法。

2024-07-19 17:16:51 1286

原创 【论文阅读】(StemGNN)多元时间序列预测的谱时间图神经网络

论文提出了一种新型的深度学习模型StemGNN,用于提高多变量时间序列预测的准确性。论文将多变量时间序列预测问题定义为基于多变量时间图(multivariate temporal graph)的数据结构。StemGNN在频谱域中同时捕获时间序列内部和序列间的相关性。模型结合了图傅里叶变换(GFT)和离散傅里叶变换(DFT),并在端到端框架中使用卷积和序列学习模块进行有效预测。实验在十个真实世界的数据集上进行,证明了StemGNN的有效性。

2024-07-17 16:29:42 1178 1

原创 【论文阅读】Activity Recognition using Cell Phone Accelerometers

这篇论文提出了一种新颖的方法,使用智能手机的加速度计来识别用户的活动。通过收集和分析来自多位用户的数据,研究者们建立了一个能够以高准确率识别不同活动的预测模型。这项工作不仅展示了智能手机传感器在数据挖掘领域的应用潜力,还为未来实时、隐私友好的移动健康监测应用奠定了基础。

2024-06-11 16:46:56 612 2

原创 【论文阅读】xLSTM: Extended Long Short-Term Memory

论文提出了xLSTM,一种扩展的长短期记忆网络,旨在解决传统LSTM的局限性,并在大规模参数下进行语言建模。xLSTM引入了指数门控和适当的归一化与稳定技术,修改了LSTM记忆结构,包括标量记忆的sLSTM和完全可并行化的具有矩阵记忆和协方差更新规则的mLSTM。通过将这些LSTM变体集成到残差块中,构建了xLSTM架构,这些架构在性能和扩展性方面与最先进的Transformers和状态空间模型相媲美。

2024-05-21 16:33:57 1395

原创 【论文阅读】TimesNet: Temporal 2D-Variation Modeling for General Time Series Analysis

文章的重点是时间变化建模,这是广泛分析任务的常见关键问题。单个时间点通常无法提供足够的语义信息进行分析,时间变化更能反映时间序列的内在属性,如连续性、周期性、趋势等。许多经典方法假设时间变化遵循预定义的模式,例如ARIMA,Holt-Winter和Prophet。然而,现实世界时间序列的变化通常过于复杂,无法被预定义的模式所覆盖,从而限制了这些经典方法的实际适用性。当前基于深度学习的方法,主要有三类:采用递归神经网络(RNN)基于马尔可夫假设对连续时间点进行建模。

2024-04-01 17:18:30 1181

原创 【论文阅读】ELA: Efficient Local Attention for Deep Convolutional Neural Networks

众所周知,图像的空间维度包含关键的位置信息,而现有的注意力机制要么无法有效利用这种空间信息,要么以降低通道维数为代价。为了解决这些局限性,本文提出了一种高效局部注意力(Efficient Local Attention,ELA)方法,通过分析Coordinate Attention(CA) method的局限性,确定了Batch Normalization中泛化能力的缺乏、降维对通道注意力的不利影响以及注意力生成过程的复杂性。

2024-03-29 19:26:51 3615 3

原创 【论文阅读】iTransformer: Inverted Transformers Are Effective for Time Series Forecasting

论文反思了 Transformer 各个模块的作用,并在不对基本模块进行任何修改的情况下重新调整了 Transformer 架构的用途,并提出了 iTransformer,只在倒置维度上应用注意力和前馈网络。具体来说,单个序列的时间点被嵌入到可变标记中,注意力机制利用这些标记来捕获多变量相关性;同时,将前馈网络应用于每个变量标记以学习非线性表示。最近的预测模型利用 Transformers 对时间序列的时间标记的全局依赖关系进行建模,每个标记由同一时间戳的多个变量组成。但。

2024-03-28 15:58:11 1510 2

原创 【论文阅读】Faster Neural Networks Straight from JPEG

直接从RGB像素训练卷积神经网络(CNNs)的简单、优雅的方法在经验上取得了压倒性的成功。但是,通过使用不同的输入表示,是否可以从网络中挤出更多的性能?直接在JPEG编解码器中间计算并可用的分块离散余弦变换(DCT)系数上训练CNN。直观地说,当使用CNN处理JPEG图像时,似乎没有必要将逐块频率表示解压缩为扩展的像素表示,将其从CPU搬到GPU,然后使用CNN进行处理,该CNN将在其第一层中学习类似于转换回频率表示的东西。为什么不跳过这两个步骤,直接将频域输入网络?

2024-03-27 16:34:21 1369 2

原创 【论文阅读】Learning in the Frequency Domain

现有的神经网络主要在具有固定输入大小的空间域中操作。对于实际应用,图像通常很大,并且必须向下采样到神经网络的预定输入大小。尽管下采样操作减少了计算和所需的通信带宽,但它会明显地去除冗余和显著的信息,从而导致精度下降。在数字信号处理理论的启发下,论文从频率的角度分析了频谱偏差,并提出了一种基于学习的频率选择方法来识别可以在不损失精度的情况下去除的琐碎频率分量。在本文中,

2024-03-26 17:55:40 1255 1

原创 【论文阅读】Probabilistic Imputation for Time-series Classification with Missing Data

实际应用的多变量时间序列数据通常包含大量缺失值。对此类缺失值进行分类的主要方法是使用特定值(零、平均值、相邻时间步长的值)或可学习参数进行启发式插补。然而,这些简单的策略没有考虑到数据生成过程,更重要的是,由于缺失值的多种可能性,无法有效地捕捉预测中的不确定性。在本文中,提出了一种新的概率框架,用于对缺失值的多变量时间序列数据进行分类。用于缺失值插补的深度生成模型和分类器。

2024-03-25 17:48:55 1296

原创 【论文阅读】SpectFormer: Frequency and Attention is what you need in a Vision Transformer

论文假设频谱注意力和多头注意力都起着重要作用。因此,提出了一种新颖的Spectformer的Transformer架构,该架构结合了频谱和多头注意力层。与 GFNet-H 和 LiT 相比,它使 ImageNet 上的 top-1 准确率提高了 2%。

2024-03-22 15:01:51 1024

原创 【论文阅读】AutoTimes: Autoregressive Time Series Forecasters via Large Language Models

由于大规模时间序列的可用性有限以及可扩展预训练的开发不足,时间序列的基础模型尚未完全开发。基于时间序列和自然语言的相似序列结构,越来越多的研究证明了利用大型语言模型(LLM)处理时间序列的可行性。然而,现有的方法可能会忽视时间序列和自然语言的一致性,导致LLM潜力的利用不足。为了充分利用从语言建模中学习到的通用token转换,提出了AutoTimes将LLM重新用作自回归时间序列预测器,这与LLM的获取和使用一致,而不更新参数。因此,预测者可以处理灵活的序列长度,并作为主流模型实现有竞争力的性能。此外,

2024-03-21 16:52:12 802

原创 【论文阅读】Masked Autoencoders Are Scalable Vision Learners

在硬件快速发展的帮助下,今天的模型可以很容易地过度拟合100万张图像,并开始需要数亿张(通常无法公开访问)标记的图像。这种对数据的需求已经在自然语言处理(NLP)中通过自我监督的预训练成功解决。这些解决方案基于GPT 中的自回归语言建模和BERT中的掩码自编码,在概念上很简单:它们删除了一部分数据并学习预测删除的内容。这些方法现在可以训练包含超过一千亿个参数的可泛化 NLP 模型。因此,掩码自动编码器的想法是自然的,也适用于计算机视觉。

2024-03-20 15:29:20 1317

原创 【论文阅读】(DALL-E)Zero-Shot Text-to-Image Generation

传统上,文本到图像生成侧重于为固定数据集上的训练找到更好的建模假设。这些假设可能涉及复杂的架构、辅助损耗或侧面信息,例如训练期间提供的对象的部分标签或分割掩码。论文提出了一种基于transformer的简单方法,transformer将文本和图像tokens自回归的建模为单个数据流。

2024-03-19 16:40:49 991

原创 (VAE)Auto-Encoding Variational Bayes

作者引入了一种随机变分推理和学习算法,该算法可以扩展到大型数据集,并且在一些温和的可微性条件下,甚至可以在棘手的情况下工作。

2024-03-18 16:43:54 847

原创 【论文阅读】MoCoGAN: Decomposing Motion and Content for Video Generation

视频中的视觉信号可以分为内容和运动。内容指定了视频中的对象,而运动描述了它们的动态。基于这一先验知识,我们提出了运动和内容分解的生成对抗网络(MoCoGAN)框架用于视频生成。所提出的框架通过将一系列随机向量映射到一系列视频帧来生成视频。每个随机向量由内容部分和运动部分组成。在内容部分保持固定的同时,运动部分被实现为一个随机过程。由于短视频剪辑中的内容通常保持不变,因此使用高斯分布对内容空间进行建模,并使用相同的实现来生成视频剪辑中的每一帧。从运动空间采样是通过循环神经网络实现的,在训练期间学习网络参数。

2024-03-14 20:06:09 1060 1

原创 【论文阅读】Improved Denoising Diffusion Probabilistic Models

去噪扩散概率模型 (DDPM) 是一类生成模型,最近已被证明可以产生出色的样本。实验表明,通过一些简单的修改,DDPM还可以在保持高样品质量的同时实现竞争性的对数似然。为了更紧密地优化变分下界 (VLB),我们使用简单的重新参数化和混合学习目标来学习逆向过程方差,该目标将 VLB 与 Ho 等人[1]的简化目标相结合,允许采样前向传递减少一个数量级,样本质量差异可以忽略不计,这对于这些模型的实际部署非常重要。

2024-03-13 17:39:41 1998

原创 雷达系统分类

雷达系统有各种尺寸和不同的性能规格。一些雷达系统用于机场的空中交通管制,其他雷达系统用于远程监视和预警系统。雷达系统是导弹制导系统的核心。可以使用一个人维护和操作的小型便携式雷达系统以及占用几个大房间的系统。

2024-03-07 10:34:19 1119

原创 FMCW雷达工作原理

毫米波 (mmWave) 是一类使用短波长电磁波的特殊雷达技术。雷达系统发射的电磁波信号被其发射路径上的物体阻挡继而会发生反射。通过捕捉反射的信号,雷达系统可以确定物体的距离、速度和角度。毫米波雷达可发射波长为毫米量级的信号。在电磁频谱中,这种波长被视为短波长,也是该技术的优势之一。诚然,处理毫米波信号所需的系统组件(如天线)的尺寸确实很小。短波长的另一项优势是高准确度。工作频率为 76–81GHz(对应波长约为 4mm)的毫米波系统将能够检测小至零点几毫米的移动。

2024-03-06 20:41:58 1344

原创 【论文阅读】Elucidating the Design Space of Diffusion-Based Generative Models

作者认为,基于扩散的生成模型的理论和实践目前过于复杂,并通过提出一个清晰分离具体设计选择的设计空间来解决这个问题。这使我们能够识别出采样过程和训练过程中的几项改进,以及对分数网络的预处理。我们的改进得到了新的最先进FID(1.79)在CIFAR-10的类条件设置中,以及在无条件设置中的1.97,采样速度比以前的设计快得多(每张图像35次网络评估),将一个预先训练的ImageNet-64模型的FID从2.07提高到接近最先进的1.55,并且在经过改进后重新训练达到了新的最先进水平1.36。

2024-03-06 15:45:05 2662

原创 【论文阅读】Generative Pretraining from Pixels

受自然语言中无监督表示学习进展的启发,作者研究了类似的模型是否能够学习图像的有用表示,训练了一个序列Transformer来自回归地预测像素,而不包含2D输入结构的知识。尽管是在低分辨率的ImageNet上进行训练,没有标签,但实验发现一个GPT-2规模的模型通过线性探测、微调和低数据分类学习,学习到了强大的图像表示。在CIFAR-10上,使用线性探测达到了96.3%的准确率,超过了监督的Wide ResNet,全微调达到了99.0%的准确率,与顶级监督预训练模型相匹配。

2024-03-05 21:44:52 1271

原创 【论文阅读】(DALLE-3)Improving Image Generation with Better Captions

论文展示了通过在高度描述性的生成图像captions上训练,可以显著提高文本到图像模型的提示跟随能力。现有的文本到图像模型在遵循详细图像描述方面存在困难,经常忽略提示中的单词或混淆提示的含义。作者假设这个问题源于训练数据集中图像标题的噪声和不准确性。通过训练一个定制的图像captions生成器并用它来重新标注训练数据集来解决这个问题。然后,训练了几个文本到图像模型,并发现在这些合成captions上训练可靠地提高了提示跟随能力。最后,使用这些发现构建了DALLE 3:一个新的文本到图像生成系统。

2024-03-05 21:06:11 1337

原创 【论文阅读】High-Resolution Image Synthesis with Latent Diffusion Model

通过将图像形成过程分解为去噪自编码器的顺序应用,扩散模型(DMs)在图像数据上实现了最先进的合成结果,并且它们的公式允许在不重新训练的情况下引入引导机制来控制图像生成过程。然而,由于这些模型通常直接在像素空间中操作,优化强大的DMs通常需要数百个GPU天,并且由于顺序评估,推理成本很高。为了在有限的计算资源下进行DM训练,同时保留它们的质量和灵活性,作者将它们应用于强大预训练自编码器的潜在空间。与之前的工作不同,

2024-03-04 21:58:39 1244

原创 【论文阅读】(WALT)Photorealistic Video Generation with Diffusion Models

论文提出了WALT,这是一种基于transformer的方法,用于通过扩散建模生成逼真的视频。首先,使用因果编码器在统一的潜在空间内联合压缩图像和视频,从而实现跨模态的训练和生成。其次,为了记忆和训练效率,使用了为联合空间和时空生成建模量身定制的窗口注意力架构。综上所述,这些设计决策使模型在已建立的视频(UCF-101 和 Kinetics-600)和图像 (ImageNet) 生成基准测试中实现最先进的性能,而无需使用无分类器引导。

2024-03-04 21:23:50 1166

原创 【论文阅读】(VLP)Using Left and Right Brains Together: Towards Vision and Language Planning

大型语言模型 (LLM) 和大型多模态模型 (LMM) 在各种任务中表现出卓越的决策masking能力。其中,大多数 LMM 都包含一个可训练的桥接网络,旨在将视觉特征与语言表示对齐,从而促进 LLM 对视觉和语言标记的处理。LLM 天生就是在语言空间内进行规划,但它们在基于视觉的联想推理方面存在显着不足,称之为视觉规划的过程,即缺乏视觉和空间想象能力。相比之下,人类在思维过程中利用大脑的左半球和右半球进行语言和视觉规划。

2024-03-03 23:43:28 1202

原创 【论文阅读】Patch n‘ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution

此前的模型将图像大小调整为固定分辨率明显是一个次优的选择。然而,诸如 Vision Transformer (ViT) [1]之类的模型提供了灵活的基于序列的建模,因此可以改变输入序列长度。支撑Vit的操作很简单:将图像拆分为多个补丁,每个补丁都线性投影到一个token上。通常,输入图像的大小会调整为固定的正方形纵横比,然后拆分为固定数量的patches。

2024-03-03 16:16:42 1685

原创 【论文阅读】(DiTs)Scalable Diffusion Models with Transformers

伯克利的William Peebles提出了一类新的基于transformer架构的扩散模型,即DiTs。

2024-03-02 22:14:36 1495 4

原创 sklearn分类模型汇总(三)

gaussian_process.GaussianProcessClassifier函数参数:ensemble.AdaBoostClassifier函数参数:ensemble.BaggingClassifier函数参数:ensemble.ExtraTreesClassifier函数参数:ensemble.GradientBoostingClassifier函数参数:ensemble.RandomForestClassifier函数参数:ensemble.HistGradientBoostingClassif

2024-03-02 15:59:15 956 1

原创 sklearn分类模型汇总(二)

sklearn分类模型汇总(二)文章目录sklearn分类模型汇总(二)Naive Bayesk-nearest neighbors algorithmLinear ModelsNaive Bayesnaive_bayes.CategoricalNB函数参数:alpha:float, default=1.0,加性 (Laplace/Lidstone) 平滑参数(设置 alpha=0 且force_alpha=True,不进行平滑)。force_alpha:bool, default=True,如

2024-03-01 22:02:50 568 1

原创 【论文阅读】Sora: A Review on Background,Technology,Limitations,and Opportunities of Large Vision Models

Transformer模型已被证明可扩展且适用于许多自然语言任务。与GPT-4等强大的大型语言模型(LLM)类似,Sora可以解析文本并理解复杂的用户指令。为了使视频生成在计算上高效,Sora使用。具体而言,Sora将原始输入视频压缩为。然后,,以在短时间间隔内封装视觉外观和运动动态。这些patches补丁类似于语言模型中的单词标记,为Sora提供了用于构建视频的详细视觉短语。Sora的文本到视频生成是由diffusion transformer模型形成的。

2024-03-01 16:00:04 1604 1

原创 sklearn分类模型汇总(一)

svm.LinearSVC函数参数:svm.NuSVC函数参数:svm.SVC函数参数:tree.DecisionTreeClassifier函数参数:tree.ExtraTreeClassifier函数参数:neural_network.BernoulliRBM函数参数:neural_network.MLPClassifier函数参数:

2024-02-29 23:12:57 829

原创 sklearn-决策树分类器

创建pipline,先进行标准化,再利用PCA降维,最后使用DecisionTree分类。

2024-02-29 17:40:10 1000

原创 特征选择和特征工程

删除特征的一个重要原因是。因此,可以删除这些输入变量,而不会造成很多信息丢失。冗余和无关是两个截然不同的概念,因为一个相关特征在存在与之高度相关的另一个相关特征的情况下可能是多余的。在某些方面,特征工程与特征选择相反。使用特征选择,可以删除变量。在特征工程中,可以创建新变量来增强模型。在许多情况下,将使用领域知识进行增强。

2024-02-28 22:49:30 732

原创 【论文阅读】How Much Position Information Do Convolutional Neural Networks Encode

经典的 CNN 模型被认为是空间不可知的,因此胶囊网络[1]或循环网络[2]已被用于对学习到的特征层内的相对空间关系进行建模。CNN更多地依赖于纹理和颜色等信息而不是形状[3]。然而,位置信息为对象可能出现在图像中的位置提供了强有力的线索(例如天空中的鸟类)。因此,论文提出了一个新的假设,即CNN可以潜在的学到位置信息,并提出了PosENet用于验证猜想。实验表明,更大的感受野或位置信息的非线性提取进一步增加了绝对位置的提取。

2024-02-28 16:07:07 856

原创 Residual Networks are Exponential Ensembles of Relatively Shallow Networks

论文主要提出一种对残差网络的新解释,实验表明残差网络是exponential ensembles的,这些集成主要由每个相对较浅的网络组成。

2024-02-27 21:43:08 720

原创 排序算法总结(基于Python)

常见排序算法总结

2024-02-26 22:06:40 998

原创 李宏毅机器学习特训营-PM2.5预测

PM2.5预测课程链接:李宏毅课程-机器学习文章目录PM2.5预测数据集介绍1.数据分析1.1观察数据1.1特征抽取1.1数据分析1.1归一化2.训练3.测试4.预测5.保存数据集介绍本次作业使用丰原站的观测记录,分成 train set 跟 test set,train set 是丰原站每个月的前 20 天所有资料。test set 则是从丰原站剩下的资料中取样出来。train.csv: 每个月前 20 天的完整资料。test.csv : 从剩下的资料当中取样出连续的 10 小时为一笔,前九

2021-03-15 19:02:19 618

原创 图像分类——OpenCV常用图像增强方法

文章目录图像增广1.图片缩放2.图片翻转3图片旋转4.图片亮度调节5.图片随机擦除6.图片随机裁剪图像增广常用图像增广方法主要有:左右翻转(上下翻转对于许多目标并不常用),随机裁剪,变换颜色(亮度,对比度,饱和度和色调)等等,拟用opencv-python实现部分数据增强方法。结构如下:class FunctionClass: def __init__(self, parameter): self.parameter=parameter def __call__

2021-03-04 13:21:34 2169 5

原创 百度领航团零基础Python-Day1

百度领航团零基础Python-Day1文章目录简介安装执行python代码语法基础第一个 Python 程序基本数据类型Python数据类型转换算术运算符条件语句循环语句for 循环作业课程链接:https://aistudio.baidu.com/aistudio/course/introduce/7073简介python是一种解释性、交互式、面向对象的跨平的语言,具有简单易学、面向对象、可移植、可扩展、简洁、解释性强以及开源等特点,是近些年来深度学习领域的主流语言之一。阅读一个良好的 Pytho

2021-02-05 15:42:34 441

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除