-
import urllib.request
as request
-
import json
#完整代码
-
url =
'https://api.douban.com/v2/movie/us_box'
#开放的api接口地址
-
crawl_content=request.urlopen(url).read()
-
top20 = json.loads(crawl_content.decode(
'utf-8'))[
'subjects']
#json解析我们想要获取的内容
-
-
# print(top20)
-
for movie
in top20:
-
# print(movie['subject']['id']) #相对应电影的id在嵌套的json里面
-
# print()
-
-
url=
'https://api.douban.com/v2/movie/'+movie[
'subject'][
'id']
#相对应电影的地址
-
print(url)
-
mobieContent = request.urlopen(url).read()
-
print(json.loads(mobieContent.decode(
'utf-8'))[
'title']+
':'+json.loads(mobieContent.decode(
'utf-8'))[
'rating'][
'average'])
-
# 获取对应电影的名称和分数
查看豆瓣开放的API:
豆瓣开发者文档:https://developers.douban.com/wiki/?title=movie_v2#simple-subject
我们可以看到:如下图我们需要的信息。
通过运行以下代码段我们可以看到JSON的结构,
-
import urllib.request
as request
-
import json
-
url =
'https://api.douban.com/v2/movie/top250 '
-
crawl_content = request.urlopen(url).read()
-
top20 = json.loads(crawl_content.decode(
'utF-8'))[
'subjects']
-
print(top20)
如下图:json有个嵌套结构,我们需要获取的id在嵌套的subect下面。因此我们用如下代码获取到指定的页面:
-
import urllib.request
as request
-
import json
-
url =
'https://api.douban.com/v2/movie/us_box'
-
crawl_content=request.urlopen(url).read()
-
top20 = json.loads(crawl_content.decode(
'utf-8'))[
'subjects']
-
-
print(top20)
-
for movie
in top20:
-
# print(movie['subject']['id']) 这里可以测试一下输出电影的id
-
# print()
-
-
url=
'https://api.douban.com/v2/movie/'+movie[
'subject'][
'id']
#在这里指定url的地址
-
print(url)
#测试一下
上面代码获取的网址直接输入网页可以得到类似下图:
得到我们想获得的电影名城和得分
print(json.loads(mobieContent.decode('utf-8'))['title']+':'+json.loads(mobieContent.decode('utf-8'))['rating']['average'])