python实现爬取猫眼并初步分析数据

最新推荐文章于 2024-07-01 14:22:28 发布

走出去拍拍照

最新推荐文章于 2024-07-01 14:22:28 发布

阅读量2.2k

点赞数 2

分类专栏：爬虫文章标签： python爬虫爬取猫眼

本文链接：https://blog.csdn.net/iva_brother/article/details/91407546

版权

本文介绍了使用Python爬取猫眼电影Top100信息的全过程，包括电影名称、封面、排名、评分、演员、上映国家/地区等，并通过正则表达式、lxml+xpath、BeautifulSoup+CSS选择器和find_all方法提取数据。爬取的数据被存储为CSV文件，并进行了如电影评分Top10、各国家电影数量比较、集中年份和最多作品演员的初步分析。

摘要由CSDN通过智能技术生成

本文通过爬取猫眼top100，利用Request请求库和4种内容提取方法：正则表达式、lxml+xpath、Beatutifulsoup+css选择器、Beatutifulsoup+find_all爬取网页内容，熟悉常用的这些提取方法。

爬取目标

从网页中提取出top100电影的电影名称、封面图片、排名、评分、演员、上映国家/地区、评分等信息，并保存为csv文本文件。
根据爬取结果，进行简单的可视化分析。

需要用到的库

import requests
import re
import time
import csv
from requests.exceptions import RequestException
from bs4 import BeautifulSoup
from lxml import etree

如何爬取数据

利用requests来爬取网页，实现代码如下！

def get_one_page(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
    }
    try:
        response = requests.get(url=url,headers=headers)
        if response.status_code == 200:
            return response.text
        else:
            return None
    except RequestException:
        return None

下面介绍四种解析方式！

正则表达式提取

正则表达式的用法参看https://www.runoob.com/python/python-reg-expressions.html

def parse_one_page(html):

    pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a.*?>(.*?)</a>.*?star">(.*?)'
                         '</p>.*?releasetime">(.*?)</p.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)

    items = re.findall(pattern,html)
    for item in items:
        yield {
            'index': item[0],
            'thumb': get_thumb(item[1]),
            'name': item[2],
            'star': item[3].strip()[3:],
            # 'time': item[4].strip()[5:],
            # 用函数分别提取time里的日期和地区
            'time': get_release_time(item[4].strip()[5:]),
            'area': get_release_area(item[4].strip()[5:]),
            'score': item[5].strip() + item[6].strip()
        }

上面程序为了便于提取内容，又定义了3个方法：get_thumb（）、get_release_time（）和 get_release_area（）：

# 提取上映时间函数
def get_release_time(data):
    pattern = re.compile(r'(.*?)(\(|$)')
    items = re.search(pattern, data)
    if items is None:
        return '未知'
    return items.group(1)  # 返回匹配到的第一个括号(.*?)中结果即时间

#