摘要音频音标:MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose Estimation in Video

音频
Recent transformer-based solutions have been introduced to estimate 3D human pose from 2D keypoint sequence by considering body joints among all frames globally to learn spatio-temporal correlation.
[ri:'sənt trænz’fɜ:mə beɪst sə’lu:ʃənz hæv bɪn ɪn’trədju:st tu: 'estɪmeɪt θri: 'di: 'hju:mən pəʊz frɑm tu: 'di: 'ki:pɔɪnt 'si:kwəns baɪ kən’sɪdərɪŋ 'bɒdi dʒɔɪnts ə’mʌŋ ɔ:l freɪmz 'gləʊbəli tu: lɜ:n 'speɪʃəʊ 'tempərəl kɒrə’leɪʃən.]

We observe that the motions of different joints differ significantly.
[wi: əb’zɜ:v ðət ðə 'məʊʃnz əv 'dɪfrənt dʒɔɪnts dɪfə 'sɪgnɪfɪkəntli.]

However, the previous methods cannot efficiently model the solid inter-frame correspondence of each joint, leading to insufficient learning of spatial-temporal correlation.
['haʊevə, ðə 'pri:viəs 'meθədz 'kɑ:nɒt ɪ’fɪʃəntli 'mɒdl ðə 'sɒlɪd ɪntəfreɪm kɒrɪs’pɒndəns əv i:tʃ dʒɔɪnt, 'li:dɪŋ tu: ɪnsə’fɪʃənt 'lɜ:nɪŋ əv 'speɪʃəl 'tempərəl kɒrə’leɪʃən.]

We propose MixSTE (Mixed Spatio-Temporal Encoder), which has a temporal transformer block to separately model the temporal motion of each joint and a spatial transformer block to learn inter-joint spatial correlation.
[wi: prə’pəʊz 'mɪksti: ('mɪkst speɪʃəʊ 'tempərəl ɪn’kəʊdə), wɪtʃ həz ə 'tempərəl trænz’fɜ:mə blɒk tu: 'sepərətli 'mɒdl ðə 'tempərəl 'məʊʃn əv i:tʃ dʒɔɪnt ænd ə 'speɪʃəl trænz’fɜ:mə blɒk tu: lɜ:n 'ɪntədʒɔɪnt 'speɪʃəl kɒrə’leɪʃən.]

These two blocks are utilized alternately to obtain better spatio-temporal feature encoding.
[ði:z tu: blɒks ɑ: ju:təlaɪzd 'ɔ:ltənətli tu: əb’teɪn 'betə speɪʃəʊ 'tempərəl 'fi:tʃər ɪn’kəʊdɪŋ.]

In addition, the network output is extended from the central frame to entire frames of the input video, thereby improving the coherence between the input and output sequences.
[ɪn ə’dɪʃən, ðə 'netwɜ:k 'aʊtpʊt ɪz ɪk’stendɪd frɑm ðə 'sentrəl freɪm tu: ɪn’taɪə freɪmz əv ði: 'ɪnpʊt 'vɪdiəʊ, ðer’baɪ ɪm’pru:vɪŋ ðə kəʊ’hiərəns bɪ’twi:n ði: 'ɪnpʊt ænd 'aʊtpʊt 'si:kwənsɪz.]

Extensive experiments are conducted on three benchmarks (i.e. Human3.6M, MPI-INF-3DHP, and HumanEva).
[ɪk’stensɪv ɪk’sperɪmənts ɑ: kən’dʌktɪd ɒn θri: 'benʧmɑ:ks (aɪ.'i: 'hju:mən θri: pɔɪnt sɪks’em, 'em pi: aɪ 'en 'ef θri: 'di: 'eɪtʃ pi:, ænd 'hju:mən i:'vɑ:).]

The results show that our model outperforms the state-of-the-art approach by 10.9% P-MPJPE and 7.6% MPJPE.
[ðə rɪ’zʌlts ʃəʊ ðət aʊə 'mɒdl aʊt’pɜ:fɔ:mz ðə 'steɪt əv ði: ɑ:t ə’prəʊtʃ baɪ ten pɔɪnt naɪn pə’sent 'pi: em 'pi: dʒi: 'pi: 'i: ænd seven pɔɪnt sɪks pə’sent 'em pi: dʒi: 'pi: 'i:]

The code is available at this URL.
[ðə kəʊd ɪz ə’veɪləbl ət ðɪs 'ju: ɑ:r 'el.]

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值