豆瓣

最新推荐文章于 2022-07-11 07:35:00 发布

天为我蓝

最新推荐文章于 2022-07-11 07:35:00 发布

阅读量169

点赞数

文章标签：爬虫

原文链接：http://www.cnblogs.com/yijingjing/p/11124222.html

版权

'''''
一.请求url:
https://movie.douban.com/top250
二.请求方式:
GET
三.请求头:
User-Agent:Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36
Cookie


爬取 电影名称
     电影url
     电影导演
     电影主演
     电影年份
     电影类型
     电影评分
     电影评论
     电影简介

'''
import requests
import re
#爬虫三部曲
#1.发送请求
def get_page(url):
    response =requests.get(url)
    # print(respond.text)
    return response
#2.解析数据
def parse_index(html):
    '''
    <div class="item">.*?<em class="">(.*?)</em>.*?<a href="(.*?)">.*?<span class="title">(.*?)</span>.*?导演: (.*?)主演: (.*?)<br>(.*?)</p>.*?<span class="rating_num".*?">(.*?)</span>.*?<span>(.*?)人评价</span>.*?<span class="inq">(.*?)</span>

    '''
    movie_list = re.findall(' <div class="item">.*?<em class="">(.*?)</em>.*?<a href="(.*?)">.*?<span class="title">(.*?)</span>.*?导演: (.*?)主演: (.*?)<br>(.*?)</p>.*?<span class="rating_num".*?">(.*?)</span>.*?<span>(.*?)人评价</span>.*?<span class="inq">(.*?)</span>',html,re.S)
    return movie_list
#3.保存数据
def save_data(movie):
    top, m_url, name, daoyan, actor, year_type, point, commit, desc = movie
    data = f'''
                ======== 欢迎尊敬官人观赏 ========
                        电影排名：{top}
                        电影url：{m_url}
                        电影名称：{name}
                        电影导演：{daoyan}
                        电影主演：{actor}
                        年份类型：{year_type}
                        电影评分：{point}
                        电影评论：{commit}
                        电影简介：{desc}
                ======== 请官人下次再来哟 ========
            \n
            \n
             '''
    print(data)
    with open('douban_top250.txt', 'a', encoding='utf-8')as f:
        f.write(data)
        print(f'电影:{name}写入成功...')


if __name__=='__main__':
    #拼接主页
    num=0
    for line in range(10):
        url = f'https://movie.douban.com/top250?start={num}&filter='
        num +=25
        print(url)
        #往主页发送请求
        index_res = get_page(url)
        #2.解析主页获取电影信息
        movie_list = parse_index(index_res.text)
        for movie in movie_list:
    #print(movie)
            save_data(movie)