主要步骤有:
访问网站,获取页面源码
解析页面,得到想要的数据
循环爬取多个页面
把数据写入本地文件
分析需要爬取的页面结构
访问猫眼电影。观察页面,会看到首页上有排名前十的电影信息。
找到页面中的分页,点击不同的页码。对比不同页面url的差别,会发现不同的分页是以offset参数作为区分的。
因为每个页面都显示10条电影信息,所以offset是以10作为偏移量的。
标题抓取首页
import re,json
import requests
def write_to_json(infos):
with open('movie.json','w',encoding='utf-8') as fp :
json.dump(infos,fp)
#解析页面内容
def parse_page(html_str):
#测试页面内容是否能拿到
# print(html_str)
#正则筛选页面的原则:一步步缩小匹配范围。
dl_p = re.compile(r'<dl class="board-wrapper">(.*?)</dl>',re.S)
dl_content = dl_p.search(html_str)