通过豆瓣API爬取北美票房榜


    
    
  1. import urllib.request as request
  2. import json #完整代码
  3. url = 'https://api.douban.com/v2/movie/us_box' #开放的api接口地址
  4. crawl_content=request.urlopen(url).read()
  5. top20 = json.loads(crawl_content.decode( 'utf-8'))[ 'subjects'] #json解析我们想要获取的内容
  6. # print(top20)
  7. for movie in top20:
  8. # print(movie['subject']['id']) #相对应电影的id在嵌套的json里面
  9. # print()
  10. url= 'https://api.douban.com/v2/movie/'+movie[ 'subject'][ 'id'] #相对应电影的地址
  11. print(url)
  12. mobieContent = request.urlopen(url).read()
  13. print(json.loads(mobieContent.decode( 'utf-8'))[ 'title']+ ':'+json.loads(mobieContent.decode( 'utf-8'))[ 'rating'][ 'average'])
  14. # 获取对应电影的名称和分数

查看豆瓣开放的API:

豆瓣开发者文档:https://developers.douban.com/wiki/?title=movie_v2#simple-subject

我们可以看到:如下图我们需要的信息。

通过运行以下代码段我们可以看到JSON的结构,


 
 
  1. import urllib.request as request
  2. import json
  3. url = 'https://api.douban.com/v2/movie/top250 '
  4. crawl_content = request.urlopen(url).read()
  5. top20 = json.loads(crawl_content.decode( 'utF-8'))[ 'subjects']
  6. print(top20)

如下图:json有个嵌套结构,我们需要获取的id在嵌套的subect下面。因此我们用如下代码获取到指定的页面:


 
 
  1. import urllib.request as request
  2. import json
  3. url = 'https://api.douban.com/v2/movie/us_box'
  4. crawl_content=request.urlopen(url).read()
  5. top20 = json.loads(crawl_content.decode( 'utf-8'))[ 'subjects']
  6. print(top20)
  7. for movie in top20:
  8. # print(movie['subject']['id']) 这里可以测试一下输出电影的id
  9. # print()
  10. url= 'https://api.douban.com/v2/movie/'+movie[ 'subject'][ 'id'] #在这里指定url的地址
  11. print(url) #测试一下

上面代码获取的网址直接输入网页可以得到类似下图:

得到我们想获得的电影名城和得分

 print(json.loads(mobieContent.decode('utf-8'))['title']+':'+json.loads(mobieContent.decode('utf-8'))['rating']['average'])
 
 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值