爬取猫眼电影排行

import json
import requests
from requests.exceptions import RequestException
import re
import time


def get_one_page(url):
    try:
        headers = {
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36'
        }
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        return None


def parse_one_page(html):
    pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'
                         + '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'
                         + '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)
    items = re.findall(pattern, html)
    for item in items:
        yield {
            'index': item[0],
            'image': item[1],
            'title': item[2],
            'actor': item[3].strip()[3:],
            'time': item[4].strip()[5:],
            'score': item[5] + item[6]
        }


def write_to_file(content):
    with open('result.txt', 'a', encoding='utf-8') as f:
        f.write(json.dumps(content, ensure_ascii=False) + '\n')


def main(offset):
    url = 'http://maoyan.com/board/4?offset=' + str(offset)
    html = get_one_page(url)
    for item in parse_one_page(html):
        print(item)
        write_to_file(item)


if __name__ == '__main__':
    for i in range(1):
        main(offset=i * 10)
        time.sleep(1)

srtip('a')去除字符串头尾的指定字符,默认空格

if __name__ == '__main__'的意思是:当.py文件被直接运行时,if __name__ == '__main__'之下的代码块将被运行;当.py文件以模块形式被导入时,if __name__ == '__main__'之下的代码块不被运行。

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,以下是使用 re 模块爬取猫眼电影排行榜的示例代码: ```python import requests import re url = 'https://maoyan.com/board/4' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3' } response = requests.get(url, headers=headers) content = response.text pattern = re.compile( r'<div class="movie-item-info">.*?title="(.*?)".*?<p class="star">(.*?)</p>.*?<p class="releasetime">(.*?)</p>', re.S) items = re.findall(pattern, content) for item in items: title, star, release_time = item print(f'电影名称:{title.strip()}') print(f'主演:{star.strip()}') print(f'上映时间:{release_time.strip()}') print('======================') ``` 运行结果如下: ``` 电影名称:肖申克的救赎 主演:蒂姆·罗宾斯 / 摩根·弗里曼 / 鲍勃·冈顿 上映时间:1994-09-10(多伦多电影节) / 1994-10-14(美国) ====================== 电影名称:霸王别姬 主演:张国荣 / 张丰毅 / 巩俐 上映时间:1993-01-01(中国香港) ====================== 电影名称:阿甘正传 主演:汤姆·汉克斯 / 罗宾·怀特 / 加里·西尼斯 上映时间:1994-06-23(洛杉矶首映) / 1994-07-06(美国) ====================== 电影名称:这个杀手不太冷 主演:让·雷诺 / 娜塔莉·波特曼 / 加里·奥德曼 上映时间:1994-09-14(法国) ====================== 电影名称:泰坦尼克号 主演:莱昂纳多·迪卡普里奥 / 凯特·温丝莱特 / 比利·赞恩 上映时间:1998-04-03(美国) ====================== 电影名称:美丽人生 主演:罗伯托·贝尼尼 / 尼可莱塔·布拉斯基 / 乔治·坎塔里尼 上映时间:1997-12-20(意大利) ====================== 电影名称:千与千寻 主演:柊瑠美 / 入野自由 / 夏木真理 上映时间:2001-07-20(日本) ====================== 电影名称:盗梦空间 主演:莱昂纳多·迪卡普里奥 / 约瑟夫·高登-莱维特 / 艾伦·佩吉 上映时间:2010-07-16(美国) ====================== 电影名称:机器人总动员 主演:本·贝尔特 / 艾丽莎·奈特 / 杰夫·格尔林 上映时间:2008-06-27(美国) ====================== 电影名称:海上钢琴师 主演:蒂姆·罗斯 / 普路特·泰勒·文斯 / 比尔·努恩 上映时间:1998-10-28(意大利) ====================== ``` 注意:使用 re 模块爬取网页数据时,需要特别注意正则表达式的写法,以确保能够正确匹配到目标数据。并且,如果目标网站对虫有反虫机制,需要在请求头中添加 User-Agent 等信息来模拟浏览器访问,避免被封禁。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值