摘要音频音标:Capturing Humans in Motion: Temporal-Attentive 3D Human Pose and Shape Estimation from

音频
Learning to capture human motion is essential to 3D human pose and shape estimation from monocular video.
【'lɜ:nɪŋ tu: 'kæptʃə 'hju:mən 'məʊʃn ɪz ɪ’senʃəl tu: θri: 'di: 'hju:mən pəʊz ænd ʃeɪp estɪ’meɪʃn frɑm 'mɒnjəkju:lər 'vɪdiəʊ. 】

However, the existing methods mainly rely on recurrent or convolutional operation to model such temporal information, which limits the ability to capture non-local context relations of human motion.
【'haʊevər, ði: ɪg’zɪstɪŋ 'meθədz 'meɪnli rɪ’laɪ ɒn rɪ’kɜ:ənt ɔ: kən’vɒlju:ʃənəl 'ɒpəreɪʃn tu: 'mɒdəl sʌtʃ 'tempərəl ɪnfə’meɪʃn, wɪtʃ 'lɪmɪts ði: ə’bɪləti tu: 'kæptʃə nən’ləʊkəl 'kɒntekst rɪ’leɪʃnz əv 'hju:mən 'məʊʃn. 】

To address this problem, we propose a motion pose and shape network (MPS-Net) to effectively capture humans in motion to estimate accurate and temporally coherent 3D human pose and shape from a video.
【tu: ə’dres ðɪs 'prɒbləm, wi: prə’pəʊz ə 'məʊʃn pəʊz ænd ʃeɪp 'netwɜ:k ('em pi: 'es 'net) tu: 'efektɪvli 'kæptʃə 'hju:mənz ɪn 'məʊʃn tu: 'estɪmeɪt 'ækjərət ænd 'tempərəli 'kəʊhiərənt θri: 'di: 'hju:mən pəʊz ænd ʃeɪp frɑm ə 'vɪdiəʊ. 】

Specifically, we first propose a motion continuity attention (MoCA) module that leverages visual cues observed from human motion to adaptively recalibrate the range that needs attention in the sequence to better capture the motion continuity dependencies.
【spə’sɪfɪkli, wi: fɜ:st prə’pəʊz ə 'məʊʃn kən’tɪnjuəti ə’tenʃn ('məʊkə) 'mɒʤu:l ðæt 'levərɪʤɪz 'vɪʒuəl kju:z əb’zɜ:vd frɑm 'hju:mən 'məʊʃn tu: ə’dæptɪvli ri:'kæləbreɪt ðə reɪnʤ ðæt ni:dz ə’tenʃn ɪn ðə 'si:kwəns tu: 'betə 'kæptʃə ðə məʊʃn kən’tɪnjuəti dɪ’pendənsiz. 】

Then, we develop a hierarchical attentive feature integration (HAFI) module to effectively combine adjacent past and future feature representations to strengthen temporal correlation and refine the feature representation of the current frame.
【ðen, wi: dɪ’veləp ə hə’rɑ:kɪkəl ə’tentɪv 'fi:tʃər ɪntɪ’ɡreɪʃn ('heɪfɑɪ) 'mɒʤu:l tu: ɪ’fektɪvli kəm’baɪn 'æʤəsənt pɑ:st ænd 'fju:tʃə fi:tʃə reprɪzen’teɪʃnz tu: 'streŋθən 'tempərəl kɔrə’leɪʃn ænd rɪ’faɪn ðə 'fi:tʃə reprɪzen’teteɪʃn əv ðə 'kʌrənt freɪm. 】

By coupling the MoCA and HAFI modules, the proposed MPS-Net excels in estimating 3D human pose and shape in the video.
【baɪ 'kʌplɪŋ ðə 'məʊkə ænd 'heɪfɑɪ 'mɒʤu:lz, ðə prə’pəʊzd 'empi:'es 'net ek’selz ɪn 'estɪmeɪtɪŋ θri: 'di: 'hju:mən pəʊz ænd ʃeɪp ɪn ðə 'vɪdiəʊ. 】

Though conceptually simple, our MPS-Net not only outperforms the state-of-the-art methods on the 3DPW, MPI-INF-3DHP, and Human3.6M benchmark datasets, but also uses fewer network parameters.
【ðəʊ kən’septʃuəli 'sɪmpl, ɑ: 'empi:'es 'net nɒt 'əʊnli aʊt’pɜ:fɔ:mz ðə 'steɪt əv ði: 'ɑ:t meθədz ɒn ðə θri: 'di: pi: 'dʌblju:, 'em pi: 'aɪ 'aɪnf θri: 'di: 'eɪtʃ pi:, ænd 'hju:mən θri: 'pɔɪnt sɪks 'em benʧ’mɑ:k 'dætəset, bʌt 'ɔ:lsəʊ ju:z 'fju:ə 'netwɜ:k 'pærəmɪtəz. 】

The video demos can be found at this URL.
【ðə 'vɪdiəʊ 'deməʊz kæn bi: faʊnd æt ðɪs ju: ɑ: 'el.】

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值