Python 爬虫学习之路 第一天

本文记录了作者学习Python爬虫的第一步,通过编写爬虫程序抓取电影网站的数据,包括电影名称、评分、类型、简介、封面链接和上映时间。首先介绍爬虫的基本概念,然后展示了如何获取页面HTML,解析列表页获取详情页URL,接着爬取详情页并提取所需信息,最后以JSON格式保存数据。文章提供了两种爬取方式,包括单线程和多进程,并邀请读者一起探讨学习。
摘要由CSDN通过智能技术生成

算法太难,直接来学爬虫

第一个爬虫程序

爬取这个网站的所有电影名称,评分,类型,内容简介,封面(只是一个网址)和上映时间

Scrape | Movie

网站在上面

所谓爬虫,就是对于一个网站的爬取,我们先关注url,对于这个网站分为两个,列表页和详情页,因此需要函数去分别提取这两个页的url,所对应的html代码,并且去解析它,最后得到所要的结果。

因此第一个我们要做的就是对于页面的爬取,以下是代码

# 页面爬取方法
def scrape_page(url):
    logging.info('scraping %s...' , url)
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        logging.error('get invalid status code %s while scraping %s', response.status_code, url)
    # 异常处理
    except requests.RequestException:
        # exec_info 可以打印出错误信息
        logging.error('error occurred while scraping %s' , url , exec_info = True)

这个函数所实现的就是,对于一个网址,去爬取它的html代码,我们直接使用get请求即可,如果状态码是200,那么直接返回所对应网址的html代码,否则输出错误日志

然后需要的就是,对于一种网页进行爬取 ,先定义列表页

# 列表页的爬取方法
# page 接受page参数
def scrape_index(page):
    # https://ssr1.scrape.center/page/2
    index_url = f'{BASE_URL}/page/{page}'
    return scrape_page(in
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值