【机器学习】基于稀疏识别方法的洛伦兹混沌系统预测

MUKAMO

已于 2024-06-21 17:46:50 修改

阅读量2.2k

点赞数 41

分类专栏： AI Python应用文章标签：人工智能机器学习神经网络分类

于 2024-06-20 18:15:14 首次发布

本文链接：https://blog.csdn.net/MUKAMO/article/details/139835354

版权

1. 引言

1.1. DNN模型的来由

从数据中识别非线性动态学意味着什么？
假设我们有时间序列数据，这些数据来自一个（非线性）动态学系统。

识别一个系统意味着基于数据推断该系统的控制方程。换句话说，就是找到动态系统方程 $\mathbf{\dot x} = f(\mathbf{x})$ 中的 $f$ （其中 $\mathbf{x}$ 可能是向量值）。

例如，对于Lorenz系统，我们希望从时间序列数据中学习到方程右边的部分。

1.2. 研究稀疏性的意义

为什么我们需要稀疏性？
在这里，稀疏性意味着控制方程中的项数很少。稀疏性是有益的，因为它更具：

可解释性。在需要理解变量及其相互作用的应用中至关重要，例如在需要安全关键保证的应用中。
泛化能力。如果正确，方程将准确描述训练数据所填充的状态空间区域之外的动态。
通常，人们可以将SINDy识别的模型视为与物理方程相对的模型，而不是大型、不透明的深度神经网络。

2. SINDy算法

SINDy试图找到适合数据 $\mathrm{\dot X} = f(\mathrm{X})$ 的动态系统 $f$ 。这个函数逼近问题被表述为线性回归 $\mathrm{\dot X} = \Theta(\mathrm{X}) \Xi$ ，其中系数为 $\Xi$ 和回归项库 $\Theta(X)$ 。算法分为三个步骤：

从动态系统生成数据 $X$ 并计算导数 $\dot X$ 。
建立候选项库 $\Theta(X)$ 作为 $X$ 上的函数。
稀疏回归系数 $\Xi$ ，以最好地描述数据。

SINDy假设是测量了 $n$ 维数据点的时间序列 $\mathbf{x}=(x_1, \ldots x_n)$ 在 $m$ 个时间步 $t_1, \ldots, t_m$ ，我们定义数据矩阵 $X$ 和导数矩阵 $\dot X$ 为：
$X=\begin{bmatrix} x_1(t_1)&x_2(t_1)&\cdots&x_n(t_1)\\ x_1(t_2)&x_2(t_2)&\cdots&x_n(t_2)\\ x_1(t_3)&x_2(t_3)&\cdots&x_n(t_3)\\ \vdots&\vdots&\ddots&\vdots\\ x_1(t_m)&x_2(t_m)&\cdots&x_n(t_m)\\ \end{bmatrix}$