网络爬虫学习第四弹：爬取猫眼电影排行

最新推荐文章于 2023-11-29 10:53:22 发布

Taoist_Nie

最新推荐文章于 2023-11-29 10:53:22 发布

阅读量355

点赞数

文章标签：网络爬虫 python

本文链接：https://blog.csdn.net/qq_39494028/article/details/83792337

版权

本文介绍了一个使用Python进行网络爬虫开发的实战案例，目标是抓取猫眼电影榜单上的电影信息，包括排名、海报图片、电影名称、演员、上映时间及评分。通过解析HTML，利用正则表达式匹配所需数据，最终将结果保存为TXT文件。

摘要由CSDN通过智能技术生成

话不多说直接上代码

import requests
import re
import json
import time
from requests.exceptions import RequestException

# 构造请求头，将爬虫伪装成浏览器去请求单个网页的html内容
def get_one_page(url):
    try:
        headers={
            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64)\
            AppleWebKit/537.36 (KHTML, like Gecko)\
            Chrome/70.0.3538.67 Safari/537.36'
        }
        response=requests.get(url,headers=headers)
        if response.status_code==200:
            return response.text
        else:
            return None
    except RequestException:
        return None

# 构造正则表达式匹配我们想得到的信息
def parse_one_page(html):
    pattern=re.compile('<dd>.*?board-index.*?>(.*?)</i>'+
                       '.*?data-src="(.*?)"'+
                       '.*?name.*?a.*?>(.*?)</a>'+
                       '.*?star.*?>(.*?)</p>'+
                       '.*?releasetime.*?>(.*?)</p>'+
                       '.*?integer.*?>(.*?)</i>'+
                       '.*?fraction.*?>(.*?)</i>.*?</dd>',re.S)
    result=re.findall(pattern,html)
    for items in result: # 将获取到的内容去除空格、杂讯等进行整理，生成字典，并构造一个生成器函数
        yield {
            'index':items[0],
            'image':items[1],
            'title':items[2],
            'actor':items[3].strip()[3:] if len(items[3]) >3 else '',
            'time':items[4].strip()[5:] if len(items[4]) >5 else '',
            'score':items[5]+items[6],
        }

# 将提取到的内容保存为txt文件
def write_to_file(content):
    with open('result.txt','a',encoding='utf-8') as f:
        print(type(json.dumps(content))) 
        # 用json模块的dumps()函数将字典转化为字符串，设置参数ensure_ascii为False保证输出是中文格式
        f.write(json.dumps(content,ensure_ascii=False))

# 对每页爬取到的信息进行整理并保存
def main(offset):
    url="http://maoyan.com/board/4?offset="+str(offset)
    html=get_one_page(url)
    for item in parse_one_page(html):
        print(item)
        write_to_file(item)

# 根据url的规律进行分页爬取
if __name__=='__main__':
    for i in range(10):
        main(offset=i*10)
        time.sleep(1) # 速度太快会被网站发现返回不了任何信息，所以用time.sleep()设置延缓执行

{'index': '1', 'image': 'http://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg@160w_220h_1e_1c', 'title': '霸王别姬', 'actor': '张国荣,张丰毅,巩俐', 'time': '1993-01-01', 'score': '9.6'}
<class 'str'>
{'index': '2', 'image': 'http://p0.meituan.net/movie/283292171619cdfd5b240c8fd093f1eb255670.jpg@160w_220h_1e_1c', 'title': '肖申克的救赎', 'actor': '蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿', 'time': '1994-10-14(美国)', 'score': '9.5'}
<class 'str'>
{'index': '3', 'image': 'http://p0.meituan.net/movie/54617769d96807e4d81804284ffe2a27239007.jpg@160w_220h_1e_1c', 'title': '罗马假日', 'actor': '格利高里·派克,奥黛丽·赫本,埃迪·艾伯特', 'time': '1953-09-02(美国)', 'score': '9.1 
.........{'index': '99', 'image': 'http://p1.meituan.net/movie/a1634f4e49c8517ae0a3e4adcac6b0dc43994.jpg@160w_220h_1e_1c', 'title': '迁徙的鸟', 'actor': '雅克·贝汉,Philippe Labro', 'time': '2001-12-12(法国)', 'score': '9.1'}
        <class 'str'>
         {'index': '100', 'image': 'http://p0.meituan.net/movie/3e5f5f3aa4b7e5576521e26c2c7c894d253975.jpg@160w_220h_1e_1c', 'title': '英雄本色', 'actor': '狄龙,张国荣,周润发', 'time': '2017-11-17', 'score': '9.2'}
        <class 'str'>

参考：崔庆才《python3网络爬虫开发实战》