我的爬虫学习之旅 (四) 爬虫实战之猫眼电影TOP100

最新推荐文章于 2022-01-16 11:13:27 发布

Ayrton1031

最新推荐文章于 2022-01-16 11:13:27 发布

阅读量476

点赞数

分类专栏： Python爬虫学习之旅

本文链接：https://blog.csdn.net/m0_38102468/article/details/89546865

版权

Python爬虫学习之旅专栏收录该内容

8 篇文章 1 订阅

订阅专栏

前言

在学习了对网页的基本请求方式以及正则匹配的规则后，可以用现掌握的理论做一些简单的爬虫脚本，本次的目标站点是猫眼电影的TOP100。

首先我们来到猫眼电影的首页，进入开发者模式，然后分析它的URL。

然后我们点击翻页，发现它的URL变化如下：

https://maoyan.com/board/4?offset=0 #第一页

https://maoyan.com/board/4?offset=10 #第二页

https://maoyan.com/board/4?offset=20 #第三页

可以得出规律，页数的变化是与url中offset的值相关，从0~90正好10页每页记录10个条目。

现在来对获取一页的功能进行编码：

def get_one_page(url):
    try:
        res = requests.get(url)
        if res.status_code == 200:
            print("获取页面数据成功！")
            return res.text
        else:
            print("获取页面数据失败，状态码：%d" %res.status_code)
            return None
    except RequestException:
        print("请求失败")
        return None

接下来便是关键的步骤，对页面进行分析。这是爬虫中非常重要的一步，也是很困难的一步。

首先进入开发者模式，由于猫眼电影TOP100的页面构成比较简单，进入Elements选项。

接着展开这个<dd>标签进行分析，找到需要爬取的内容，然后编写正则表达式。

这里我们需要获取序号，片名，主演，上映时间，评分等。

正则表达式如下：

<dd>.*?<i class="board-index.*?>(\d+)</i>.*?<a href=.*?<img src="(.*?)".*?>.*?</a>.*?<p class="name"><a href=.*?>(.*?)</a></p>.*?<p class="star">(.*?)</p>.*?<p class="releasetime">(.*?)</p>.*?<p class="score"><i class="integer">(.*?)</i><i class="fraction">(.*?)</i></p>.*?</dd>

    my_pattern = re.compile('<dd>.*?<i class="board-index.*?>(\d+)</i>.*?<a href=.*?<img src="(.*?)".*?>.*?</a>.*?<p class="name"><a href=.*?>(.*?)</a></p>.*?<p class="star">(.*?)</p>.*?<p class="releasetime">(.*?)</p>.*?<p class="score"><i class="integer">(.*?)</i><i class="fraction">(.*?)</i></p>.*?</dd>', re.S)
    results = re.findall(my_pattern, content)
    print(results)

输出这个findall的结果，发现每一条目的信息都被保存在一个元组中，并且共同存储在一个列表中。

现在就可以对解析页面功能进行编码：

def parse_page(content):
    my_pattern = re.compile('<dd>.*?<i class="board-index.*?>(\d+)</i>.*?<a href=.*?<img src="(.*?)".*?>.*?</a>.*?<p class="name"><a href=.*?>(.*?)</a></p>.*?<p class="star">(.*?)</p>.*?<p class="releasetime">(.*?)</p>.*?<p class="score"><i class="integer">(.*?)</i><i class="fraction">(.*?)</i></p>.*?</dd>', re.S)
    results = re.findall(my_pattern, content)
    return results

拿到每一页的获取信息后，需要将这些信息保存在本地中，所以定义一个写保存到本地的功能：

在这里对获取内容列表的每个元组进行遍历，创建一个本地txt文件，在每次遍历中定义一个字典来记录信息值。由于获得的信息文本仍有冗余的符号如换行空白符等，需要针对特定信息项做特别的处理。

def write_to_file(content):
    with open('MaoYan_top100.txt', 'a', encoding='utf-8') as f:
        for i in content:
            info_dict = {
                "num": i[0],
                "name": i[2],
                "pic": i[1],
                "actor": i[3].strip()[3:], # 用strip方法去除文本前后空白字符，再对需要字段进行切片
                "time": i[4][5:], # 去除 “上映时间” 字段
                "score": i[5]+i[6]
            }
            # print(info_dict)
            #f.write(json.dumps(info_dict, ensure_ascii=False)+ '\n')
            f.write(str(info_dict) + '\n')
        f.close()

定义主函数：

def main():
    for page in range(5): # range(100): 生成[0,100)半闭半开的序列
        url = 'https://maoyan.com/board/4?offset=' + str(page*10)
        content = get_one_page(url)
        items = parse_page(content)
        write_to_file(items)

运行后生成文本文件

至此猫眼TOP100的爬虫程序就完成了！

完整代码：

import requests
from requests.exceptions import RequestException
import re
import json

def get_one_page(url):
    try:
        res = requests.get(url)
        if res.status_code == 200:
            print("获取页面数据成功！")
            return res.text
        else:
            print("获取页面数据失败，状态码：%d" %res.status_code)
            return None
    except RequestException:
        print("请求失败")
        return None

def parse_page(content):
    my_pattern = re.compile('<dd>.*?<i class="board-index.*?>(\d+)</i>.*?<a href=.*?<img src="(.*?)".*?>.*?</a>.*?<p class="name"><a href=.*?>(.*?)</a></p>.*?<p class="star">(.*?)</p>.*?<p class="releasetime">(.*?)</p>.*?<p class="score"><i class="integer">(.*?)</i><i class="fraction">(.*?)</i></p>.*?</dd>', re.S)
    results = re.findall(my_pattern, content)
    return results

def write_to_file(content):
    with open('MaoYan_top100.txt', 'a', encoding='utf-8') as f:
        for i in content:
            info_dict = {
                "num": i[0],
                "name": i[2],
                "pic": i[1],
                "actor": i[3].strip()[3:],
                "time": i[4][5:],
                "score": i[5]+i[6]
            }
            # print(info_dict)
            #f.write(json.dumps(info_dict, ensure_ascii=False)+ '\n')
            f.write(str(info_dict) + '\n')
        f.close()


def main():
    for page in range(10): # range(100): 生成[0,100)半闭半开的序列
        url = 'https://maoyan.com/board/4?offset=' + str(page*10)
        content = get_one_page(url)
        items = parse_page(content)
        write_to_file(items)


if __name__ == '__main__':
    main()

同理，对豆瓣电影Top250也做出相应的信息爬取练习：

import requests, re, json
from requests.exceptions import RequestException

def get_one_page(url):
    try:
        res = requests.get(url)
        if res.status_code == 200:
            return res.text
        return None
    except RequestException:
        return None

def parse_page(context):
    my_pattern = re.compile('<li.*?<em class="">(\d+)</em>.*?<a href=.*?src="(.*?)".*?</a>.*?title">(.*?)</span>.*?<p class="">(.*?)</p>.*?average">(.*?)</span>.*?<span>(.*?)</span>.*?</li>',re.S)
    results = re.findall(my_pattern, context)


    # 处理影片描述部分的混乱格式
    for item in results:
        content = ""
        # 切除描述部分的空白字符
        for i in item[3].split():
            content = content + "".join(i)
        content = re.sub('<br>','',content)
        content = re.sub('&nbsp;',' ',content)
        # 返回字典
        yield {
             "index": item[0],
             "name": item[2],
             "pic": item[1],
             "describe": content,
             "score": item[4],
             "people": item[5]
         }

def write_to_file(content):
    with open("douban_250.txt","a",encoding="utf-8") as f:
        f.write(json.dumps(content,ensure_ascii=False) + '\n')
        f.close()

def main(offset):
    url = "https://movie.douban.com/top250?start=" + str(offset)
    context = get_one_page(url)
    for i in parse_page(context):
        print(i)
        write_to_file(i)

if __name__ == "__main__":
    for i in range(10):
        main(i*25)

参考：

https://blog.csdn.net/qq_38243583/article/details/83186780

Ayrton1031

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
我的爬虫学习之旅 (四) 爬虫实战之猫眼电影TOP100

前言在学习了对网页的基本请求方式以及正则匹配的规则后，可以用现掌握的理论做一些简单的爬虫脚本，本次的目标站点是猫眼电影的TOP100。首先我们来到猫眼电影的首页，进入开发者模式，然后分析它的URL。然后我们点击翻页，发现它的URL变化如下：https://maoyan.com/board/4?offset=0 #第一页https://maoyan.com/board...
复制链接

扫一扫