Python 正则表达式解析猫眼电影网页_正则表达式匹配网页电影的时长-CSDN博客

本文链接：https://blog.csdn.net/qq_43570528/article/details/106102258

引导

题目
网页样例内容
正则表达式
输出结果

题目

根据网页源代码提取电影信息，格式如下：
获取内容由
board-index ***（排名）、
date-src（图片地址）、
title（影片名）、
star（主演）、
releasetime（上映时间）、
integer、
fraction （评分如:9.5 integer:9. fraction:5）
标签组合。

网页样例内容

<dd>
    <i class="board-index board-index-1">1</i>
    <a href="/films/1203" title="霸王别姬" class="image-link" data-act="boarditem-click" data-val="{movieId:1203}">
        <img src="//s3plus.meituan.net/v1/mss_e2821d7f0cfe4ac1bf9202ecf9590e67/cdn-prod/file:5788b470/image/loading_2.e3d934bf.png" alt="" class="poster-default" />
        <img data-src="https://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg@160w_220h_1e_1c" alt="霸王别姬" class="board-img" />
    </a>

    <div class="board-item-main">
        <div class="board-item-content">
              <div class="movie-item-info">
                    <p class="name"><a href="/films/1203" title="霸王别姬" data-act="boarditem-click" data-val="{movieId:1203}">霸王别姬</a></p>
                    <p class="star">主演：张国荣,张丰毅,巩俐</p>
                    <p class="releasetime">上映时间：1993-01-01</p>
              </div>
        <div class="movie-item-number score-num">
            <p class="score"><i class="integer">9.</i><i class="fraction">5</i></p>
        </div>
      </div>
    </div>
</dd>

解析

观察网页代码可发现，每条电影信息都由一个dd标签括起来，二电影的其他信息已经分别标出。

 获取排名信息的正则表达式：<dd>.*?board-index.*?>(.*?)</i>

再获取电影封面：<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)"

再提取电影名，主演，上映时间等信息，同样的道理，最后正则表达式为：

'<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)"'
+'.*?name.*?a.*?>(.*?)</a>.*?star.*?>(.*?)</p>'
 +'.*?releasetime.*?>(.*?)</p>.*?integer.*?>(.*?)</i>'
  +'.*?fraction.*?>(.*?)</i>.*?</dd>'

正则表达式

import re

def parse_one_page(html):
    #*********** Begin **********#
        pattern = re.compile('<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)"'
            +'.*?name.*?a.*?>(.*?)</a>.*?star.*?>[^\u4e00-\u9fff]+(.*?)[^\u4e00-\u9fff]+</p>'
            +'.*?releasetime.*?>(.*?)</p>.*?integer.*?>(.*?)</i>'
            +'.*?fraction.*?>(.*?)</i>.*?</dd>',
            re.S)    
        res = re.findall(pattern, html)
        print(res)
    # 将输出结果打印即可
    #*********** End **********#

输出结果

[(‘1’,‘https://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg@160w_220h_1e_1c’, ‘霸王别姬’, ‘主演：张国荣,张丰毅,巩俐’, ‘上映时间：1993-01-01’, ‘9.’, ‘5’)]