python爬虫(爬取豆瓣电影)_动态网页,json解释,中文编码

本文介绍了如何爬取动态网站,特别是豆瓣电影的动画排行榜,涉及动态网站的识别、JSON解析及中文编码问题的解决。通过查看浏览器的Network面板找到请求的URL,抓取JSON数据并使用Python的json模块进行处理。同时,文章还讨论了在处理中文编码时遇到的错误及其解决方案。
摘要由CSDN通过智能技术生成

from bs4 import BeautifulSoup
import requests
import json
import sys
import codecs

reload(sys)
sys.setdefaultencoding( "utf-8" )

rank = 0

every_film = ''

for start in range(0,80,20):

    url = 'https://movie.douban.com/j/chart/top_list?type=25&interval_id=100%3A90&action=&start='+str(start)+'&limit=20'

    source_code = requests.get(url)
    soup = BeautifulSoup(source_code.text,'lxml')

    j = json.loads(soup.text) #explain json

    for film in j:  #every 'film' is a dict
        #print film
        rank = rank + 1 #rank
        every_film = every_film + str(rank) + ' : Name:' +str(film[u'title']).decode('utf-8') #add film's name
        every_film = every_film + ' Rating:' + str(film[u'rating'][0]).decode('utf-8') #add rating
      
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值