简单易学python小爬虫：用requests+BeautifulSoup爬取豆瓣TOP250

最新推荐文章于 2023-04-09 11:06:53 发布

不会织网的蜘蛛精

最新推荐文章于 2023-04-09 11:06:53 发布

阅读量1k

点赞数 2

分类专栏： python 文章标签： python爬虫

本文链接：https://blog.csdn.net/weixin_43248024/article/details/89390968

版权

本文介绍了如何使用Python的requests库和BeautifulSoup库来爬取豆瓣电影Top250的电影信息，包括电影排名、名称和评分。通过分析网页结构，获取目标数据并进行解析。代码示例展示了如何存储爬取的数据，以及如何通过修改start参数自动翻页以爬取更多内容。这是一个简单的爬虫教程，适合Python爬虫初学者。

摘要由CSDN通过智能技术生成

爬取目标网址：https://movie.douban.com/top250

分析网站源代码，找到我们要爬取的部分。
可以发现目标数据存放在ol这个节点里面，而每一部电影又是存放在li节点里面，我们可以用requests来获得这个网站的文本信息，然后用BeautifulSoup来解析，获得我们想要的数据及信息。

我是在中国慕课嵩天老师爬虫课学习的获取网页通用代码

import requests
from bs4 import BeauifulSoup

def getHTML(url):
    #用try，except来捕捉异常，使程序正常运行
    try:
        #不论网站有无反爬机制，都要设置headers
        headers = {
                            "User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36"
                }
        r = requests.get(url,headers = headers)
        r.raise_for_status
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "error"