Python爬虫学习2-静态网页基础实战

最新推荐文章于 2022-10-05 09:32:09 发布

capodexi

最新推荐文章于 2022-10-05 09:32:09 发布

阅读量220

点赞数

分类专栏： python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/capodexi/article/details/113355181

版权

python 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Python爬虫学习2-静态网页基础实战

使用Python爬虫爬取豆瓣电影Top50信息

今天的Python爬虫学习主要是对之前两节内容的复习和综合练习，使用Python的Requests库爬取豆瓣电影Top250的基本信息。分析豆瓣电影区的Url可以得到豆瓣电影Top区网页的基本排布规律：每页展示25个电影信息，URL的’?'后跟着当前网页的第一个电影在Top250中的排序（排序的顺序从i=0开始）

在这里插入图片描述基础的静态网页Python爬虫程序的代码如图所示：（注释已经标注在代码的对应位置处）

#爬取静态网页-以豆瓣电影Top250为例
import requests

#定义自动获取电影信息函数getmovie（）
def getmovie():
    #定义初始头信息
    headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML,like Gecko) Chrome/52.0.2743.82 Safari/537.36 ',
    'Host':'movie.douban.com/'
    } 
    #定义循环函数      
    for i in range(0,10):
        link='https://movie.douban.com/top250?start='+str(i*25) #按页数进行不同的link连接
        r=requests.get(link,headers=headers,timeout=10)
        print(str(i+1),"页面响应状态码",r.status_code)
        print(r.text)

#主函数执行部分
if __name__=="__main__":
    getmovie()

代码的执行结果部分截图如图所示（爬取的r.text结果）
在这里插入图片描述

capodexi

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫学习2-静态网页基础实战

从零开始的Python爬虫学习2-静态网页基础实战使用Python爬虫爬取豆瓣电影Top50信息今天的Python爬虫学习主要是对之前两节内容的复习和综合练习，使用Python的Requests库爬取豆瓣电影Top250的基本信息。分析豆瓣电影区的Url可以得到豆瓣电影Top区网页的基本排布规律：每页展示25个电影信息，URL的’?'后跟着当前网页的第一个电影在Top250中的排序（排序的顺序从i=0开始）基础的静态网页Python爬虫程序的代码如图所示：（注释已经标注在代码的对应位置处）#爬取静态
复制链接

扫一扫