FOMM模型的公式推导

最新推荐文章于 2024-08-04 11:11:47 发布

REstrat

最新推荐文章于 2024-08-04 11:11:47 发布

阅读量623

点赞数 2

文章标签：算法机器学习人工智能

本文链接：https://blog.csdn.net/REstrat/article/details/127363179

版权

GO

FOMM需要找到一个从源帧到驱动帧的映射关系，给出最终结果，文中提出：
$\mathcal{T}_{\mathbf{S} \leftarrow \mathbf{D}}(z) \approx \mathcal{T}_{\mathbf{S} \leftarrow \mathbf{R}}\left(p_{k}\right)+\left(\left.\frac{d}{d p} \mathcal{T}_{\mathbf{S} \leftarrow \mathbf{R}}(p)\right|_{p=p_{k}}\right)\left(\left.\frac{d}{d p} \mathcal{T}_{\mathbf{D} \leftarrow \mathbf{R}}(p)\right|_{p=p_{k}}\right) \quad\left(z-\mathcal{T}_{\mathbf{D} \leftarrow \mathbf{R}}\left(p_{k}\right)\right)$
我每次看到这东西都头疼，所以在这里记录一下。
首先， $\mathcal{T}_{\mathbf{S} \leftarrow \mathbf{D}}()$ 你要看作是一个函数，它是一个映射关系，传入一个 $z$ 值可以得到一个输出 $z^{'}$ ，如何我们能够找到一个这样的映射关系，就等同于我们找到了源帧到驱动帧的映射关系。

文章提出，我们找到这个函数的 $\mathcal{T}_{\mathbf{S} \leftarrow \mathbf{D}}()$ ，因此，它对此进行了一阶泰勒展开，引出了它的名字，一阶动态模型。
对于一个函数 $f (x)$ ，如果函数 $f (x)$ 在 $x_0$ 处有 $n$ 阶导数，那么存在 $x_0$ 的一个领域，对于该领域内任意一点 $x$ ，有
$\begin{array}{l} f(x)=f\left(x_{0}\right)+f^{\prime}\left(x_{0}\right)\left(x-x_{0}\right)+\frac{f^{\prime \prime}\left(x_{0}\right)}{2 !}\left(x-x_{0}\right)^{2}+\cdots+\frac{f^{(n)}\left(x_{0}\right)}{n !}\left(x-x_{0}\right)^{n}+o\left(\left(x-x_{0}\right)^{n}\right) . \end{array},\\$
我们对 $\mathcal{T}_{\mathbf{S} \leftarrow \mathbf{D}}(z)$ 在 $z_k$ 处进行一阶泰勒展开，则
$\mathcal{T}_{\mathbf{S} \leftarrow \mathbf{D}}(z)=\mathcal{T}_{\mathbf{S} \leftarrow \mathbf{D}}\left(z_{k}\right)+\left(\left.\frac{d}{d z} \mathcal{T}_{\mathbf{S} \leftarrow \mathbf{D}}(z)\right|_{z=z_{k}}\right)\left(z-z_{k}\right)+o\left(\left\|z-z_{k}\right\|\right)$
那就分成了求解两部分，其中一部分是 $\mathcal{T}_{\mathbf{S} \leftarrow \mathbf{D}}(z_k)$ ，同样的，这里，我们要知道 $\mathcal{T}_{\mathbf{S} \leftarrow \mathbf{D}}()$ 是一个函数。
那么我们其实可以很容易的理解：
$\mathcal{T}_{\mathbf{S} \leftarrow \mathbf{D}}()=\mathcal{T}_{\mathbf{S} \leftarrow \mathbf{R}}(\mathcal{T}_{\mathbf{D} \leftarrow \mathbf{R}}^{-1}())$
那么这里的 $\begin{aligned} \mathcal{T}_{\mathbf{S} \leftarrow \mathbf{D}}\left(z_{k}\right) &=\mathcal{T}_{\mathbf{S}\leftarrow \mathbf{R}}( \mathcal{T}_{\mathbf{R} \leftarrow \mathbf{D}}\left(z_{k}\right)) \\ &=\mathcal{T}_{\mathbf{S}\leftarrow \mathbf{R}} ( \mathcal{T}_{\mathbf{D} \leftarrow \mathbf{R}}^{-1}\left(z_{k}\right)) \\ &=\mathcal{T}_{\mathbf{S} \leftarrow \mathbf{R}} ( \mathcal{T}_{\mathbf{D} \leftarrow \mathbf{R}}^{-1} ( \mathcal{T}_{\mathbf{D} \leftarrow \mathbf{R}}\left(p_{k}\right))) \\ &=\mathcal{T}_{\mathbf{S} \leftarrow \mathbf{R}}\left(p_{k}\right) \end{aligned}$
注意，上述式子符号很多，很乱，这里的 $z_k$ 其实是驱动帧中的关键点，通过一个映射关系 $\mathcal{T}_{\mathbf{S} \leftarrow \mathbf{D}}\left(\right)$ 要能够得到源帧的关键点 $p_S$ ，那为什么最后写成 $\mathcal{T}_{\mathbf{S} \leftarrow \mathbf{R}}\left(p_{k}\right)$ ，因为关键点 $p_k$ 是假设的参考帧的关键点。现在，其中一个我们已经求出来了，再看后面部分，后面的部分是对 $\mathcal{T}_{\mathbf{S} \leftarrow \mathbf{D}}\left(\right)$ 求导，得到在点 $z_k$ 处的值。
我们可以通过对 $\mathcal{T}_{\mathbf{S} \leftarrow \mathbf{D}}(z)=\mathcal{T}_{\mathbf{S} \leftarrow \mathbf{R}}(\mathcal{T}_{\mathbf{D} \leftarrow \mathbf{R}}^{-1}(z))$ 求导，根据链式法则求导得到：
$\left(\frac{d}{d z} \mathcal{T}_{\mathbf{S} \leftarrow \mathbf{D}}(z) \mid z=z_{k}\right)=\left(\left.\frac{d}{d p} \mathcal{T}_{\mathbf{S} \leftarrow \mathbf{R}}(p)\right|_{p=\mathcal{T}_{\mathbf{R} \leftarrow \mathbf{D}}\left(z_{k}\right)}\right)\left(\frac{d}{d z} \mathcal{T}_{\mathbf{D} \leftarrow \mathbf{R}}^{-1}(z) \mid z=z_{k}\right)$
而 $\mathcal{T}_{\mathbf{R} \leftarrow \mathbf{D}}\left(\right)$ 代表的是从驱动帧到参考帧的映射，那么输入驱动帧的关键点 $z_k$ 很显然就会得到参考帧的关键点 $p_k$ 。
$p_k=\mathcal{T}_{\mathbf{R} \leftarrow \mathbf{D}}\left(z_{k}\right)$
因此，最终得到： $\left(\frac{d}{d z} \mathcal{T}_{\mathbf{S} \leftarrow \mathbf{D}}(z) \mid z=z_{k}\right)=\left(\left.\frac{d}{d p} \mathcal{T}_{\mathbf{S} \leftarrow \mathbf{R}}(p)\right|_{p=p_{k}}\right)\left(\left.\frac{d}{d p} \mathcal{T}_{\mathbf{D} \leftarrow \mathbf{R}}(p)\right|_{p=p_{k}}\right)^{-1}$
分别代入，得：
$\mathcal{T}_{\mathbf{S} \leftarrow \mathbf{D}}(z) \approx \mathcal{T}_{\mathbf{S} \leftarrow \mathbf{R}}\left(p_{k}\right)+\left(\left.\frac{d}{d p} \mathcal{T}_{\mathbf{S} \leftarrow \mathbf{R}}(p)\right|_{p=p_{k}}\right)\left(\left.\frac{d}{d p} \mathcal{T}_{\mathbf{D} \leftarrow \mathbf{R}}(p)\right|_{p=p_{k}}\right)^{-1}\left(z-\mathcal{T}_{\mathbf{D} \leftarrow \mathbf{R}}\left(p_{k}\right)\right)$

REstrat

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
FOMM模型的公式推导

是假设的参考帧的关键点。现在，其中一个我们已经求出来了，再看后面部分，后面的部分是对。，如何我们能够找到一个这样的映射关系，就等同于我们找到了源帧到驱动帧的映射关系。，因此，它对此进行了一阶泰勒展开，引出了它的名字，一阶动态模型。代表的是从驱动帧到参考帧的映射，那么输入驱动帧的关键点。你要看作是一个函数，它是一个映射关系，传入一个。其实是驱动帧中的关键点，通过一个映射关系。注意，上述式子符号很多，很乱，这里的。的一个领域，对于该领域内任意一点。文章提出，我们找到这个函数的。，同样的，这里，我们要知道。
复制链接

扫一扫