简单易学python小爬虫:用requests+BeautifulSoup爬取豆瓣TOP250

本文介绍了如何使用Python的requests库和BeautifulSoup库来爬取豆瓣电影Top250的电影信息,包括电影排名、名称和评分。通过分析网页结构,获取目标数据并进行解析。代码示例展示了如何存储爬取的数据,以及如何通过修改start参数自动翻页以爬取更多内容。这是一个简单的爬虫教程,适合Python爬虫初学者。
摘要由CSDN通过智能技术生成

爬取目标网址:https://movie.douban.com/top250

分析网站源代码,找到我们要爬取的部分。
可以发现目标数据存放在ol这个节点里面,而每一部电影又是存放在li节点里面,我们可以用requests来获得这个网站的文本信息,然后用BeautifulSoup来解析,获得我们想要的数据及信息。

我是在中国慕课嵩天老师爬虫课学习的获取网页通用代码

import requests
from bs4 import BeauifulSoup

def getHTML(url):
    #用try,except来捕捉异常,使程序正常运行
    try:
        #不论网站有无反爬机制,都要设置headers
        headers = {
                            "User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36"
                }
        r = requests.get(url,headers = headers)
        r.raise_for_status
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "error"
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值