爬取豆瓣电影排行榜前250

最新推荐文章于 2022-05-30 15:54:03 发布

小熊提伯斯

最新推荐文章于 2022-05-30 15:54:03 发布

阅读量696

点赞数

分类专栏： Python学习文章标签： python

本文链接：https://blog.csdn.net/qq_30500113/article/details/83410581

版权

Python学习专栏收录该内容

59 篇文章 9 订阅

订阅专栏

环境:python3.6 + BeautifulSoup

爬取一页的电影信息对应网址:https://movie.douban.com/top250

import requests # 导入网页请求库
from bs4 import BeautifulSoup # 导入网页解析库
import json

# 用于发送请求，获得网页源代码以供解析
def start_requests(url):
    r = requests.get(url)
    return r.content

# 接收网页源代码解析出需要的信息
def parse(text):
    soup = BeautifulSoup(text, 'html.parser')
    movie_list = soup.find_all('div', class_ = 'item')
    result_list = []
    for movie in movie_list:
        mydict = {}
        mydict['title'] = movie.find('span', class_ = 'title').text
        mydict['score'] = movie.find('span', class_ = 'rating_num').text
        mydict['quote'] = movie.find('span', class_ = 'inq').text
        star = movie.find('div', class_ = 'star')
        mydict['comment_num'] = star.find_all('span')[-1].text[:-3]
        result_list.append(mydict)
    return result_list

# 将数据写入json文件
def write_json(result):
    s = json.dumps(result, indent = 4, ensure_ascii=False)
    with open('movies.json', 'w', encoding = 'utf-8') as f:
        f.write(s)

# 主运行函数，调用其他函数
def main():
    url = 'https://movie.douban.com/top250'
    text = start_requests(url)
    result = parse(text)
    write_json(result)

# 一般做法
if __name__ == '__main__':
    main()```