通过豆瓣API爬取北美票房榜

最新推荐文章于 2022-04-29 14:56:37 发布

江余婷

最新推荐文章于 2022-04-29 14:56:37 发布

阅读量570

点赞数


    
    
      
      
       
       
      
      
      
      
       
       
        
        import urllib.request 
        
        as request
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        import json                                                 
        
        #完整代码
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        url = 
        
        'https://api.douban.com/v2/movie/us_box'              
        
        #开放的api接口地址  
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        crawl_content=request.urlopen(url).read()
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        top20 = json.loads(crawl_content.decode(
        
        'utf-8'))[
        
        'subjects']
        
        #json解析我们想要获取的内容
       
       
      
      

      
      
       
       
      
      
      
      
       
        
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        # print(top20)
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        for movie 
        
        in top20:
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        #     print(movie['subject']['id'])                         #相对应电影的id在嵌套的json里面
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        #     print()
       
       
      
      

      
      
       
       
      
      
      
      
       
           
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
            url=
        
        'https://api.douban.com/v2/movie/'+movie[
        
        'subject'][
        
        'id']  
        
        #相对应电影的地址
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
            print(url)
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
            mobieContent = request.urlopen(url).read()
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
            print(json.loads(mobieContent.decode(
        
        'utf-8'))[
        
        'title']+
        
        ':'+json.loads(mobieContent.decode(
        
        'utf-8'))[
        
        'rating'][
        
        'average'])
       
       
      
      

      
      
       
       
      
      
      
      
       
       
        
        # 获取对应电影的名称和分数

查看豆瓣开放的API：

豆瓣开发者文档：https://developers.douban.com/wiki/?title=movie_v2#simple-subject

我们可以看到：如下图我们需要的信息。

通过运行以下代码段我们可以看到JSON的结构，


 
 
   
   
    
    
   
   
   
   
    
    
     
     import urllib.request 
     
     as request
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     import json
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     url = 
     
     'https://api.douban.com/v2/movie/top250 '
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     crawl_content = request.urlopen(url).read()
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     top20 = json.loads(crawl_content.decode(
     
     'utF-8'))[
     
     'subjects']
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     print(top20)

如下图：json有个嵌套结构，我们需要获取的id在嵌套的subect下面。因此我们用如下代码获取到指定的页面：


 
 
   
   
    
    
   
   
   
   
    
    
     
     import urllib.request 
     
     as request
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     import json
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     url = 
     
     'https://api.douban.com/v2/movie/us_box'
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     crawl_content=request.urlopen(url).read()
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     top20 = json.loads(crawl_content.decode(
     
     'utf-8'))[
     
     'subjects']
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     print(top20)
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     for movie 
     
     in top20:
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     #     print(movie['subject']['id']) 这里可以测试一下输出电影的id
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     #     print()
    
    
   
   

   
   
    
    
   
   
   
   
    
        
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         url=
     
     'https://api.douban.com/v2/movie/'+movie[
     
     'subject'][
     
     'id']   
     
     #在这里指定url的地址
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         print(url)                        
     
     #测试一下

上面代码获取的网址直接输入网页可以得到类似下图：

得到我们想获得的电影名城和得分

 print(json.loads(mobieContent.decode('utf-8'))['title']+':'+json.loads(mobieContent.decode('utf-8'))['rating']['average'])

江余婷

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
通过豆瓣API爬取北美票房榜

import urllib.request as requestimport json #完整代码url = 'https://api.douban.com/v2/movie/us_box' ...
复制链接

扫一扫