从抓取豆瓣电影聊高性能爬虫思路(纯干货)

从抓取豆瓣电影聊高性能爬虫思路

本篇文章将以抓取豆瓣电影信息为例来一步步介绍开发一个高性能爬虫的常见思路。

寻找数据地址
爬虫的第一步,首先我们要找到获取数据的地址。可以先到豆瓣电影 首页 去看看。

顶部导航为提供了很多种类型的入口,其中和电影有关的有:排行榜、选电影和分类。为了便于后续更精细的分析,这里选择进入分类页面,地址。通过浏览的开发工具,我们最终能确认数据来源是的

https://movie.douban.com/j/new_search_subjects?sort=U&range=0,10&tags=&start=0

注意:如果有朋友熟悉前端并装有vue浏览器插件,就会发现豆瓣电影站点是vue开发的。这些基本web开发技能对于我们平时开发爬虫都是很有帮助的。

爬取首页数据
用浏览器打开上面的接口地址,我们就会发现它的返回数据为json格式。利用python的requests和json库,就可以把数据获取下来了。

这里我们只获取电影的标题、导演、评分和演员四个字段,代码如下:

import json
import requests

def crawl(url):
    response = requests.get(url)
    if response.status_code != 200:
        raise Exception('http status code is {}'.format(response.status_code))

    data = response.json()['data']

    items = []
    for v in  data:
        items.append({
            'title': v['title'],
            'drectors': v['directors'],
            'rate': v['rate'],
            'casts': v['casts']
        })
    
    return items

def main():
    url = 'https://movie.douban.com/j/new_search_subjects?sort=U&range=0,10&tags=&start=0'
    for item in crawl(url):
        print(item)

if __name__ == "__main__":
    main()

代码执行得到如下这些数据:

{'title': '绿皮
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值