前提:会基础的python3以及requests库,正则等。
分析网页
top100榜单网址为https://maoyan.com/board/4,通过最简单浏览器自带的开发者工具(F12)抓包发现所需内容就在此网址。
也可以直接请求这个网址,用python将返回数据保存下来,代码如下:
很简单,不过多叙述。
内容提取
我采用python自带的正则方法提取(方法有很多种),这是网页源代码内容,每个影片格式相同,接下来就可以写正则提取了。
<div class="board-item-content">
<div class="movie-item-info">
<p class="name"><a href="/films/13824" title="射雕英雄传之东成西就" data-act="boarditem-click" data-val="{movieId:13824}">射雕英雄传之东成西就</a></p>
<p class="star">
主演:张国荣,梁朝伟,张学友
</p>
<p class="releasetime"