from bs4 import BeautifulSoup
import requests
import json
import sys
import codecs
reload(sys)
sys.setdefaultencoding( "utf-8" )
rank = 0
every_film = ''
for start in range(0,80,20):
url = 'https://movie.douban.com/j/chart/top_list?type=25&interval_id=100%3A90&action=&start='+str(start)+'&limit=20'
source_code = requests.get(url)
soup = BeautifulSoup(source_code.text,'lxml')
j = json.loads(soup.text) #explain json
for film in j: #every 'film' is a dict
#print film
rank = rank + 1 #rank
every_film = every_film + str(rank) + ' : Name:' +str(film[u'title']).decode('utf-8') #add film's name
every_film = every_film + ' Rating:' + str(film[u'rating'][0]).decode('utf-8') #add rating
python爬虫(爬取豆瓣电影)_动态网页,json解释,中文编码
本文介绍了如何爬取动态网站,特别是豆瓣电影的动画排行榜,涉及动态网站的识别、JSON解析及中文编码问题的解决。通过查看浏览器的Network面板找到请求的URL,抓取JSON数据并使用Python的json模块进行处理。同时,文章还讨论了在处理中文编码时遇到的错误及其解决方案。
摘要由CSDN通过智能技术生成