python爬虫（爬取豆瓣电影）_动态网页,json解释,中文编码

Allennnn_

于 2016-04-18 21:53:29 发布

阅读量5.7k

点赞数 3

分类专栏： Python爬虫

本文链接：https://blog.csdn.net/Alex_X_Jane/article/details/51182985

版权

本文介绍了如何爬取动态网站，特别是豆瓣电影的动画排行榜，涉及动态网站的识别、JSON解析及中文编码问题的解决。通过查看浏览器的Network面板找到请求的URL，抓取JSON数据并使用Python的json模块进行处理。同时，文章还讨论了在处理中文编码时遇到的错误及其解决方案。

摘要由CSDN通过智能技术生成

from bs4 import BeautifulSoup
import requests
import json
import sys
import codecs

reload(sys)
sys.setdefaultencoding( "utf-8" )

rank = 0

every_film = ''

for start in range(0,80,20):

    url = 'https://movie.douban.com/j/chart/top_list?type=25&interval_id=100%3A90&action=&start='+str(start)+'&limit=20'

    source_code = requests.get(url)
    soup = BeautifulSoup(source_code.text,'lxml')

    j = json.loads(soup.text) #explain json

    for film in j:  #every 'film' is a dict
        #print film
        rank = rank + 1 #rank
        every_film = every_film + str(rank) + ' : Name:' +str(film[u'title']).decode('utf-8') #add film's name
        every_film = every_film + ' Rating:' + str(film[u'rating'][0]).decode('utf-8') #add rating