爬虫实战---爬取猫眼电影

爬去猫眼电影正字热映电影榜单的前五页:

#爬取猫眼电影正在热映前5面的所有电影
import requests
from requests import RequestException
import re

def get_one_page(url):
     header ={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'}
     try:
         response = requests.get(url,headers = header)
         if response.status_code == 200:
             return response.text
         else:
             return None
     except RequestException:
         return None

def main():
    url = 'http://maoyan.com/films?showType=1'
    html = get_one_page(url)
    return html

if __name__ == '__main__':
    html = main()
    result = re.findall('<dd>.*?<div.*?class="movie-item".*?</div>.*?<div.*?class=.*?title="(\w+)".*?>',html,re.S)
    offset = '30'
    url = 'http://maoyan.com/films?showType=1'
    while True:
        url = url + '&offset=' + offset
        html = get_one_page(url)
        for item in re.findall('<dd>.*?<div.*?class="movie-item".*?</div>.*?<div.*?class=.*?title="(\w+)".*?>',html,re.S) :
            result.append(item)
        url = 'http://maoyan.com/films?showType=1'
        offset = str(int(offset) + 30)
        if int(offset) > 150:
            break

    # for item in result :
    #     print(item)

    with open('movies.txt','w+',encoding='utf-8') as f:
        for item in result:
            f.write(item)
            f.write('\n')

输出结果为:

侏罗纪世界2
猛虫过江
泄密者
超时空同居
厕所英雄
第七个小矮人
动物世界
超人总动员2
金蝉脱壳2
吃货宇宙
龙虾刑警
幸福马上来
深海越狱
爱情公寓
寂静之地
恐怖浴室
泡菜爱上小龙虾
完美陌生人
快乐星球之三十六号
血十三
后来的我们
阿飞正传
爵迹2
新乌龙院之笑闹江湖
狄仁杰之四大天王
监狱犬计划
魔镜奇缘2
邪不压正
生存家族
阿修罗
昨日青空
一纸婚约
巨齿鲨
凤凰城遗忘录
毛骨悚然之红衣男孩
西虹市首富
伊阿索密码
我不是药神
让我怎么相信你
时间监狱
的士速递5
因果启示录
大轰炸
一出好戏
侏罗纪世界3
昼颜
风语咒
侏罗纪世界
快把我哥带走
反贪风暴3
疯狂这一年
复仇者联盟4
墨多多谜境冒险
狂暴巨兽
给19岁的我自己
新哥斯拉
精灵王座
家
姽婳
最后一球
摩天营救
致命夺宝
镰仓物语
红海行动
我的宠物恐龙
午夜幽灵
路过未来
烛仙
细思极恐
封门笔仙
摸金校尉之九幽将军
唐人街探案2
凤皇传
神奇马戏团
金蝉脱壳
头号玩家
小偷家族
小悟空
只能活一个
阴阳师
阿凡达2
青年马克思
如影随心
青春不留白
战狼2
死侍2
出走的娜拉
武林怪兽
恋爱101度
捉妖记2
一个人的江湖
云南虫谷
巴啦啦小魔仙
地下凶猛
白雪公主之神秘爸爸
马兰花开
天佑之爱
银河护卫队3
冰海陷落
泰迪熊之玩具大战
欧洲攻略
美食大冒险之英雄烩
影
神探蒲松龄之兰若仙踪
衣柜里的冒险王
无双
惊奇队长
神秘世界历险记4
大闹东海
流浪地球
寻梦环游记
暗夜良人
嘻哈英熊
新大头儿子和小头爸爸2一日成才
护垫侠
疯狂的外星人
盯上小偷的贼
疯狂侏罗纪
西小河的夏天
羞羞的铁拳
宝贝老板
大脚印
黑豹
幕后玩家
速度与激情8
胖子行动队
银河护卫队
邹碧华
起跑线
他是一只狗
画框里的女人
光影之战
暮光巴黎
玛雅蜜蜂历险记
一生有你
古剑奇谭之流月昭明
阳台上
荒城纪
淘气大侦探
心灵救赎
我爱灰太狼
爱猫之城
小萝莉的猴神大叔
侏罗纪公园
大耳朵图图之美食狂想曲
赛尔号大电影之寻找凤凰神兽
命运速递
西游记女儿国
神秘巨星
双生
无问西东
芳华
真相漩涡
美国行动

  

转载于:https://www.cnblogs.com/ronghe/p/9197854.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值