Frequency-domain MLPs

最新推荐文章于 2024-07-26 13:24:37 发布

Li_RuiQi

最新推荐文章于 2024-07-26 13:24:37 发布

阅读量1.1k

点赞数 25

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Li_RuiQi/article/details/135537026

版权

1.introduction

一般来说，模型越复杂，其预测结果的鲁棒性对可用数据集的大小要求就越高。

MLP模型，结构简单，参数量少。可以在可用数据量较少的情况下，捕捉序列的趋势。

例如，N-BEATS, LightTS, DLinear

Frequency-domain MLPs

基于mlp的预测方法，现有问题：

1.点式映射：模型学习时过度关注细节，缺乏整体理解。

2.信息瓶颈：瓶颈设置过紧，导致模型失去对有用信息的捕捉，导致欠拟合；太松，导致过度关注冗余信息，导致过拟合。

mlp学习模型的特点：

全局视图：频域信息能够使mlp拥有信号的完整视图，更容易学习到全局依赖关系；
能量压缩：频域mlp集中在频率成分的较小关键部分，信号能量紧凑。

2.related work

时域预测方法：arma，var， arima

基于rnn：deepAR， LSTNet

基于cnn：TCN， SCINet

可以学习时域中的依赖性。

基于GNN：TAMP-S2GCNets， AGCRN， MTGNN， GraphWaveNet

建模时域变量之间的序列依赖关系

基于transformer：informer和reformer

对时域远程依赖建模能力的关注机制

基于MLP:

N-BEATS利用堆叠的MLP层和双残差学习来处理数据以迭代地预测未来。

DEPTS医用FFT来提取周期和MLP实现单变量预测的周期性依赖性。

LightTS使用轻量级面向采样的MLP结构来降低复杂性和计算时间。

N-HiTS 多速率输入采样和分层插值与MLP结合

LTSF-Linear ：单层线性模型

3.FreTS

提出：FreTS

时域信号转换为频域复数信号；
频域学习，mlp学习频率分量的实部和虚部。

问题定义：

结构：

域转换：

使用傅里叶变化将时间序列信号分解为其组成频率。

有利于识别出数据的周期性或趋势性，有利于预测。

Domain Conversion：

可以缩写为：

逆转：

Domain Inversion：

频率通道学习器：

捕捉不同变量之间的相关性。L个时间戳之间的权重共享。

DomainConversion(chan) and DomainInversion(chan) 都是沿着通道维度进行操作。

？？

频域时间学习器：

学习频域中的时间模式；在每个通道上进行频域MLP构建，N个通道共享权重。

Frequency-domain MLPs

输入是复数，输出也是复数

频域MLP对频域的操作，可以表示为对时域的全局卷积。

4.实验：

十三个现实世界的benchmark

短期预测的baselines：

VAR, SFM, LSTNet, TCN, GraphWaveNet, DeepGLO, StemGNN, MTGNN, AGCRN, TAMP-S2GCNets, DCRNN, STGCN,

长期预测的baselines：

Informer, Autoformer, Reformer, FEDformer, LSTF——Linear， PatchTST

MSE为loss

MAE和RMSR 为结果指标

短期预测设置：

输入12，输出12

长期预测设置：

输入：48

输出：{48，96，192，336}

消融实验，得到结论：

频率学习器在短期预测中作用更明显；

时间学习器在长期预测中更重要。

FreMLP结合当时SOTA-MLP（DLinear和NLinear）性能都有明显提升。

5.结论：

通过全局视图和能量压缩有效捕捉时间序列的基本模式。

基于频率MLP设计了FreTS架构，用于时间预测。

FreTS: Frequency-domain MLPs are More Effective Learners in Time Series Forecasting 论文详解-CSDN博客

关注

25
点赞
踩
28

收藏

觉得还不错? 一键收藏
5
评论
Frequency-domain MLPs

一般来说，模型越复杂，其预测结果的鲁棒性对可用数据集的大小要求就越高。MLP模型，结构简单，参数量少。可以在可用数据量较少的情况下，捕捉序列的趋势。例如，N-BEATS, LightTS, DLinear基于mlp的预测方法，现有问题：1.点式映射：模型学习时过度关注细节，缺乏整体理解。2.信息瓶颈：瓶颈设置过紧，导致模型失去对有用信息的捕捉，导致欠拟合；太松，导致过度关注冗余信息，导致过拟合。mlp学习模型的特点：全局视图：频域信息能够使mlp拥有信号的完整视图，更容易学习到全局依赖关系；
复制链接

扫一扫

Li_RuiQi

CSDN认证博客专家 CSDN认证企业博客

码龄2年

中国科学院大学

31: 原创

52万+: 周排名

4万+: 总排名

2万+: 访问

: 等级

563: 积分

454: 粉丝

228: 获赞

32: 评论

348: 收藏

私信

关注

热门文章

分类专栏

Bug 1篇
word小技巧 1篇

最新评论

Frequency-domain MLPs
Li_RuiQi: 有时间可以安排一下. 具体有什么问题我们可以直接讨论。
Frequency-domain MLPs
爆焯丸子: 不知道作者是否跑通了这个代码，可否出一期博客讲解一下
Sim2Real两个源代码
思考实践: 这段代码定义了两个静态方法，用于处理图像和深度数据，以及生成点云，这些都是在机器人视觉处理和环境理解中常见的操作。 _bbox2mask方法：这个方法用于根据边界框（bbox）生成一个遮罩（mask），该遮罩在边界框内的区域为True，外部为False。参数image是输入的图像，bbox是边界框的坐标，格式通常为[中心点y坐标, 中心点x坐标, 高度, 宽度]。方法首先创建一个与输入图像第一个通道大小相同的零矩阵mask（假设图像是三维的，即宽x高x通道），数据类型为bool。然后，根据bbox的坐标，在mask上将对应的区域设为True，表示这部分是我们感兴趣的区域（即边界框内的区域）。最后返回这个遮罩。 base_cloud方法：这个方法用于将深度图转换为点云，并将点云数据与图像数据合并。参数image是RGB图像数据，depth是深度图数据，intrinsic是相机的内参矩阵，shift和end_pose是用于调整点云位置的参数（可能用于将点云从相机坐标系转换到机器人或世界坐标系中）。方法首先使用depth2cloud函数（这个函数没有在代码片段中给出，但其作用是根据深度图和相机内参生成点云）来将深度图转换为点云cam_cloud。然后，将点云数据cam_cloud（X, Y, Z坐标）和原图像数据image（R, G, B值）沿着最后一个维度（通道维度）连接起来，形成一个新的数据结构，其中包含了每个点的空间坐标和颜色信息。这两个方法展示了在处理机器人视觉任务时，如何从基本的图像和深度数据出发，进行遮罩生成和点云构建，以便进行进一步的分析和操作。
Sim2Real两个源代码
思考实践: 这段代码定义了一个名为 Solution 的类的初始化方法 (__init__)，用于设置和初始化一个机器人系统的各个组件以及一些相关的工作线程。以下是各部分的详细说明：初始化机器人硬件组件： self.arm = Arm(backend='ros')：创建一个机械臂对象，使用ROS（Robot Operating System）作为后端进行通信。 self.base = Base(backend='ros')：创建一个移动底座对象，也是使用ROS进行通信。 self.gripper = Gripper(backend='ros')：创建一个抓手（夹爪）对象，并随即打开抓手准备抓取物体。 self.camera = Camera(backend='ros')：创建一个相机对象，用于获取环境图像。初始化机器视觉组件： self.detector = Detector(model='grounding-dino')：初始化一个用于目标检测的模型，这里示例中使用的是grounding-dino模型。也提供了注释掉的选择，即使用yolo-v7模型。 self.segmentor = Segmentor(model='segment-anything')：初始化一个用于图像分割的模型，可以分割图像中的任何物体。 self.grasper = GraspPredictor(model='graspnet')：初始化一个用于预测抓取位置的模型，这里使用的是graspnet。初始化多线程和同步锁： self.image_lock、self.result_lock、self.prompt_lock：分别为图像数据、处理结果和提示信息创建锁，用于在多线程环境中同步访问这些资源。 self.running = True：设置一个运行状态标志，用于控制线程的运行。 self.prompt = 'sky'：初始化一个提示信息，这可能用于指导目标检测模型识别特定类型的物体。 self.update_once()：执行一次更新操作，可能用于获取初始的图像和处理结果。 self.t_vis = Thread(target=self.vis, daemon=True)：创建一个视觉显示的线程，用于实时显示图像和检测结果。
Sim2Real两个源代码
思考实践: base_line代码：这段代码是一个机器人自动化任务的实现，特别是用于处理厨房环境中的对象，如打开和关闭微波炉、识别和搬运碗等任务。以下是代码主要功能和组件的详细解释：初始化和设置：代码首先设置了一系列的位置和姿态（比如微波炉前的位置、用于关闭微波炉的臂部位置等），然后初始化机器人的各个组件，包括臂部（Arm）、底座（Base）、抓手（Gripper）和相机（Camera）。此外，还初始化了用于目标检测（Detector）、图像分割（Segmentor）和抓取预测（GraspPredictor）的模型。图像处理与目标检测：通过相机捕获RGB图像和深度图像，使用目标检测和图像分割模型来识别和定位感兴趣的对象。这些信息用于后续的抓取和搬运任务。抓取和搬运逻辑：定义了多个方法来执行特定的任务，如grasp()用于抓取对象，place_microwave()用于将对象放入微波炉，close_microwave()用于关闭微波炉门，以及将碗放置到不同位置的方法（place_bowl_lower()和place_bowl_upper()）。机器人动作执行：通过调用机器人臂部和底座的移动方法来实现对机器人的控制，以执行如打开柜门、抓取和放置对象等一系列复杂动作。动态视觉反馈：代码实现了一个更新和视觉显示的循环，用于实时更新相机捕获的图像和处理结果，并通过OpenCV窗口显示。这包括用边界框标记检测到的对象和覆盖的分割掩码，以及动态调整基于检测结果的机器人行为。执行具体任务：在if __name__ == '__main__':部分，代码串联了一系列的动作来执行特定的场景任务，如打开柜门、寻找并搬运特定的对象到微波炉，然后关闭微波炉门，以及根据对象颜色将碗分类放置到不同的位置。整个代码示例展示了如何利用机器学习模型和机器人硬件组件（臂部、抓手、相机等）的协同工作来自动化执行复杂的任务序列。通过动态获取环境信息并根据这些信息调整机器人动作，实现了在一定程度上的智能化操作。

最新文章

目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。