待爬取的网页地址为https://maoyan.com/board/4,本次以requests、BeautifulSoup css selector为路线进行爬取,最终目的是把影片排名、图片、名称、演员、上映时间与评分提取出来并保存到文件。
初步分析:所有网页上展示的内容后台都是通过代码来完成的,所以,不管那么多,先看源代码
F12打开chrome的调试工具,从下面的图可以看出,实际上每一个电影选项(排名、分数、名字等)都被包括在dd标签中。
为了能把这些影片信息爬取出来,可以有以下两种思路。
思路一:把电影的每一个要素的列表先提取出来,类似如下:
titile = ['霸王别姬','肖申克的救赎'....],index = [1,2...],
最后从各个列表中选中对应的item拼接成一个个新的列表或字典类型,
类似如下:result = [{'title':'霸王别姬','index':'1'},{'title':'肖申克的救赎','index':'2'.....}
分析:因为要多次进行遍历,思路一的整体逻辑较混乱,容易出错
思路二:把每一个dd标签作为一个整体提取为一个列表,然后对列表的每一项(包含每部影片的各项信息)进行解析提取
分析:很明显,相对第一种思路,第二种思路就更加的清晰明了
下面通过代