音频
Learning to capture human motion is essential to 3D human pose and shape estimation from monocular video.
【'lɜ:nɪŋ tu: 'kæptʃə 'hju:mən 'məʊʃn ɪz ɪ’senʃəl tu: θri: 'di: 'hju:mən pəʊz ænd ʃeɪp estɪ’meɪʃn frɑm 'mɒnjəkju:lər 'vɪdiəʊ. 】
However, the existing methods mainly rely on recurrent or convolutional operation to model such temporal information, which limits the ability to capture non-local context relations of human motion.
【'haʊevər, ði: ɪg’zɪstɪŋ 'meθədz 'meɪnli rɪ’laɪ ɒn rɪ’kɜ:ənt ɔ: kən’vɒlju:ʃənəl 'ɒpəreɪʃn tu: 'mɒdəl sʌtʃ 'tempərəl ɪnfə’meɪʃn, wɪtʃ 'lɪmɪts ði: ə’bɪləti tu: 'kæptʃə nən’ləʊkəl 'kɒntekst rɪ’leɪʃnz əv 'hju:mən 'məʊʃn. 】
To address this problem, we propose a motion pose and shape network (MPS-Net) to effectively capture humans in motion to estimate accurate and temporally coherent 3D human pose and shape from a video.
【tu: ə’dres ðɪs 'prɒbləm, wi: prə’pəʊz ə 'məʊʃn pəʊz ænd ʃeɪp 'netwɜ:k ('em pi: 'es 'net) tu: 'efektɪvli 'kæptʃə 'hju:mənz ɪn 'məʊʃn tu: 'estɪmeɪt 'ækjərət ænd 'tempərəli 'kəʊhiərənt θri: 'di: 'hju:mən pəʊz ænd ʃeɪp frɑm ə 'vɪdiəʊ. 】
Specifically, we first propose a motion continuity attention (MoCA) module that leverages visual cues observed from human motion to adaptively recalibrate the range that needs attention in the sequence to better capture the motion continuity dependencies.
【spə’sɪfɪkli, wi: fɜ:st prə’pəʊz ə 'məʊʃn kən’tɪnjuəti ə’tenʃn ('məʊkə) 'mɒʤu:l ðæt 'levərɪʤɪz 'vɪʒuəl kju:z əb’zɜ:vd frɑm 'hju:mən 'məʊʃn tu: ə’dæptɪvli ri:'kæləbreɪt ðə reɪnʤ ðæt ni:dz ə’tenʃn ɪn ðə 'si:kwəns tu: 'betə 'kæptʃə ðə məʊʃn kən’tɪnjuəti dɪ’pendənsiz. 】
Then, we develop a hierarchical attentive feature integration (HAFI) module to effectively combine adjacent past and future feature representations to strengthen temporal correlation and refine the feature representation of the current frame.
【ðen, wi: dɪ’veləp ə hə’rɑ:kɪkəl ə’tentɪv 'fi:tʃər ɪntɪ’ɡreɪʃn ('heɪfɑɪ) 'mɒʤu:l tu: ɪ’fektɪvli kəm’baɪn 'æʤəsənt pɑ:st ænd 'fju:tʃə fi:tʃə reprɪzen’teɪʃnz tu: 'streŋθən 'tempərəl kɔrə’leɪʃn ænd rɪ’faɪn ðə 'fi:tʃə reprɪzen’teteɪʃn əv ðə 'kʌrənt freɪm. 】
By coupling the MoCA and HAFI modules, the proposed MPS-Net excels in estimating 3D human pose and shape in the video.
【baɪ 'kʌplɪŋ ðə 'məʊkə ænd 'heɪfɑɪ 'mɒʤu:lz, ðə prə’pəʊzd 'empi:'es 'net ek’selz ɪn 'estɪmeɪtɪŋ θri: 'di: 'hju:mən pəʊz ænd ʃeɪp ɪn ðə 'vɪdiəʊ. 】
Though conceptually simple, our MPS-Net not only outperforms the state-of-the-art methods on the 3DPW, MPI-INF-3DHP, and Human3.6M benchmark datasets, but also uses fewer network parameters.
【ðəʊ kən’septʃuəli 'sɪmpl, ɑ: 'empi:'es 'net nɒt 'əʊnli aʊt’pɜ:fɔ:mz ðə 'steɪt əv ði: 'ɑ:t meθədz ɒn ðə θri: 'di: pi: 'dʌblju:, 'em pi: 'aɪ 'aɪnf θri: 'di: 'eɪtʃ pi:, ænd 'hju:mən θri: 'pɔɪnt sɪks 'em benʧ’mɑ:k 'dætəset, bʌt 'ɔ:lsəʊ ju:z 'fju:ə 'netwɜ:k 'pærəmɪtəz. 】
The video demos can be found at this URL.
【ðə 'vɪdiəʊ 'deməʊz kæn bi: faʊnd æt ðɪs ju: ɑ: 'el.】