Python使用Requests和bs4来分析网页
PS: 也是从网上各个帖子中学习的Python,因此代码的格式以及内容有粘贴网上其他大神的代码,如有侵权请告知删除
以电影天堂为例
目的:爬取距今为之两周以内的电影链接
1 首先要找出主页和子页之间的关系
在网站中点击“最新电影”,会呈现多页电影列表,如图:
分别对比首页,以及第二页,第三页的网址可知到
第一页:‘https://www.dytt8.net/html/gndy/dyzz/index.html’
第二页:‘https://www.dytt8.net/html/gndy/dyzz/list_23_2.html’
第三页:‘https://www.dytt8.net/html/gndy/dyzz/list_23_3.html’
所以可以用以下代码来记录网址
for page in range(1, 3