基于Python的网络爬虫——猫眼电影TOP100

完整代码 

import pandas as pd
import requests
from fake_useragent import UserAgent
from lxml import etree

df_movies = pd.DataFrame(columns=['排名', '片名', '主演', '上映时间', '评分'])

base_url = 'https://maoyan.com/board/4?offset={}'

headers = {
    'Referer': 'https://www.maoyan.com/board/4?requestCode=ed21bcc89b9563c594bb6ac5ef545ea9unret&offset=0',
    'Cookie': '__mta=146207627.1686117814768.1686117814768.1686117893405.2; uuid_n_v=v1; '
              'uuid=08C5265004F911EEB6A41DA4355E52ADF4145C449C124065972A22585426BE66; '
              '_csrf=c148b36a5e0a6001e7ecf1be0781da0d361ad0685e85dfd07aa720ef75e793ff; '
              '_lxsdk_cuid=18894741140c8-06f50454e820c5-26031d51-144000-18894741140c8; '
              '_lxsdk=08C5265004F911EEB6A41DA4355E52ADF4145C449C124065972A22585426BE66; '
              'Hm_lvt_703e94591e87be68cc8da0da7cbd0be2=1686117815; '
              'Hm_lpvt_703e94591e87be68cc8da0da7cbd0be2=1686117893; _lxsdk_s=18894741140-900-e76-d5e%7C%7C4',
    'User-Agent': UserAgent().random
}

for page in range(10):
    url = base_url.format(str(page * 10))
    response = requests.get(url, headers=headers)
    html = response.text
    xp = etree.HTML(html)
    movies = xp.xpath('//*[@id="app"]/div/div/div[1]')

    for movie in movies:
        for num in range(10):
            ranking = movie.xpath('//*[@id="app"]/div/div/div[1]/dl/dd/i/text()')[num]
            name = movie.xpath('//*[@id="app"]/div/div/div[1]/dl/dd/div/div/div[1]/p[1]/a/text()')[num]
            actors = movie.xpath('//*[@id="app"]/div/div/div[1]/dl/dd/div/div/div[1]/p[2]/text()')[num].strip().replace(
                "主演:", "")
            release_time = movie.xpath('//*[@id="app"]/div/div/div[1]/dl/dd/div/div/div[1]/p[3]/text()')[num].replace(
                "上映时间:",
                "")
            score1 = movie.xpath('//*[@id="app"]/div/div/div[1]/dl/dd/div/div/div[2]/p/i[1]/text()')[num]
            score2 = movie.xpath('//*[@id="app"]/div/div/div[1]/dl/dd/div/div/div[2]/p/i[2]/text()')[num]
            score = score1 + score2
            df_movies = df_movies._append(
                {'排名': ranking, '片名': name, '主演': actors, '上映时间': release_time, '评分': score},
                ignore_index=True)

df_movies.to_csv("MaoYanTop100.csv", index=False)

表格化的CSV文件内容

排名片名主演上映时间评分
1我不是药神徐峥,周一围,王传君2018-07-059.6
2肖申克的救赎蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿1994-09-10(加拿大)9.5
3海上钢琴师蒂姆·罗斯,比尔·努恩 ,克兰伦斯·威廉姆斯三世2019-11-159.3
4绿皮书维果·莫腾森,马赫沙拉·阿里,琳达·卡德里尼2019-03-019.5
5霸王别姬张国荣,张丰毅,巩俐1993-07-269.4
6美丽人生罗伯托·贝尼尼,朱斯蒂诺·杜拉诺,赛尔乔·比尼·布斯特里克2020-01-039.3
7这个杀手不太冷让·雷诺,加里·奥德曼,娜塔莉·波特曼1994-09-14(法国)9.4
8小偷家族中川雅也,安藤樱,松冈茉优2018-08-038.1
9哪吒之魔童降世吕艳婷,囧森瑟夫,瀚墨2019-07-269.6
10怦然心动玛德琳·卡罗尔,卡兰·麦克奥利菲,艾丹·奎因2010-07-26(美国)8.9
11星际穿越马修·麦康纳,安妮•海瑟薇,杰西卡·查斯坦2014-11-129.3
12盗梦空间莱昂纳多·迪卡普里奥,渡边谦,约瑟夫·高登-莱维特2010-09-019.0
13泰坦尼克号莱昂纳多·迪卡普里奥,凯特·温丝莱特,比利·赞恩1998-04-039.6
14阿甘正传汤姆·汉克斯,罗宾·怀特,加里·西尼斯1994-07-06(美国)9.4
15楚门的世界金·凯瑞,劳拉·琳妮,诺亚·艾默里奇1998(罗马尼亚)8.9
16千与千寻柊瑠美,周冬雨,井柏然2019-06-219.3
17触不可及弗朗索瓦·克鲁塞,奥马·希,安娜·勒尼2011-11-02(法国)9.1
18辛德勒的名单连姆·尼森,拉尔夫·费因斯,本·金斯利1993-11-30(美国)9.2
19寻梦环游记安东尼·冈萨雷斯,本杰明·布拉特,盖尔·加西亚·贝纳尔2017-11-249.6
20情书中山美穗,丰川悦司,酒井美纪1999-03-018.9
21少年派的奇幻漂流苏拉·沙玛,伊尔凡·可汗,塔布2012-11-229.0
22何以为家赞恩·阿尔·拉菲亚,约丹诺斯·希费罗,博鲁瓦蒂夫·特雷杰·班科尔2019-04-299.3
23摔跤吧!爸爸阿米尔·汗,沙克希·坦沃,法缇玛·萨那·纱卡2017-05-059.8
24忠犬八公的故事Forest,理查·基尔,琼·艾伦2009-06-13(美国)9.3
25放牛班的春天热拉尔·朱诺,弗朗西斯·贝尔兰德,凯德·麦拉德2004-10-169.5
26小丑杰昆·菲尼克斯,罗伯特·德尼罗,亚历克·鲍德温2019-10-04(美国)8.6
27当幸福来敲门威尔·史密斯,贾登·史密斯,坦迪·牛顿2008-01-179.3
28天堂电影院菲利浦·诺瓦雷,雅克·贝汉,马克·莱昂纳蒂2021-06-119.3
29三傻大闹宝莱坞阿米尔·汗,卡琳娜·卡普,马德哈万2011-12-089.1
30熔炉孔刘,郑裕美,金智英2011-09-22(韩国)8.8
31你的名字。上白石萌音,佟心竹,神木隆之介2016-12-029.2
32看不见的客人马里奥·卡萨斯,阿娜·瓦格纳,何塞·卡罗纳多2017-09-159.4
33活着葛优,巩俐,牛犇1994-05-17(法国)9.0
34教父马龙·白兰度,阿尔·帕西诺,詹姆斯·凯恩1972-03-14(美国)9.3
35死亡诗社罗宾·威廉姆斯,伊桑·霍克,罗伯特·肖恩·莱纳德1989-06-02(加拿大)8.7
36头号玩家泰伊·谢里丹,奥利维亚·库克,本·门德尔松2018-03-309.0
37龙猫秦岚,糸井重里,岛本须美2018-12-149.2
38被嫌弃的松子的一生中谷美纪,永山瑛太,伊势谷友介2006-05-27(日本)8.5
39闻香识女人阿尔·帕西诺,克里斯·奥唐纳,加布里埃尔·安瓦尔1992-12-23(美国)8.8
40疯狂动物城金妮弗·古德温,杰森·贝特曼,伊德瑞斯·艾尔巴2016-03-049.5
41三块广告牌弗兰西斯·麦克多蒙德,伍迪·哈里森,山姆·洛克威尔2018-03-028.6
42末代皇帝尊龙,陈冲,彼得·奥图尔1987-10-04(日本)8.8
43心灵奇旅杰米·福克斯,蒂娜·菲,菲利西亚·拉斯海德2020-12-259.2
44机器人总动员本·贝尔特,艾丽莎·奈特,杰夫·格尔林2008-06-27(美国)9.3
45超脱阿德里安·布劳迪,马西娅·盖伊·哈登,詹姆斯·凯恩2011-04-25(美国)8.7
46西西里的美丽传说莫妮卡·安娜·玛丽亚·贝鲁奇,朱塞佩·苏尔法罗,玛蒂尔德·皮亚纳2000-10-26 00:00:00(意大利)8.2
47海蒂和爷爷阿努克·斯特芬 ,布鲁诺·甘茨,昆林·艾格匹2019-05-169.5
48本杰明·巴顿奇事布拉德·皮特,凯特·布兰切特,塔拉吉·P·汉森2008-12-25(美国)8.8
49让子弹飞姜文,周润发,葛优2010-12-168.5
50一一吴念真,金燕玲,李凯莉2017-07-28(中国台湾)8.9
51海边的曼彻斯特卡西·阿弗莱克,卢卡斯·赫奇斯,米歇尔·威廉姆斯2017-08-258.8
52布达佩斯大饭店拉尔夫·费因斯,托尼·雷沃罗利,西尔莎·罗南2014-02-06(德国)8.7
53阿凡达萨姆·沃辛顿,佐伊·索尔达娜,米歇尔·罗德里格兹2010-01-049.4
54美国往事罗伯特·德尼罗,詹姆斯·伍兹,伊丽莎白·麦戈文2015-04-239.1
55美丽心灵罗素·克劳,詹妮弗·康纳利,艾德·哈里斯2001-12-13(美国)8.8
56乱世佳人费雯·丽,克拉克·盖博,奥利维娅·德哈维兰1939-12-15(美国)9.1
57搏击俱乐部爱德华·哈里森·诺顿,布拉德·皮特,海伦娜·伯翰·卡特1999-09-10(意大利)8.7
58消失的爱人本·阿弗莱克,裴淳华,尼尔·帕特里克·哈里斯2014-09-26(美国)8.7
59复仇者联盟4:终局之战小罗伯特·唐尼,克里斯·埃文斯,马克·鲁法洛2019-04-249.1
60爱在黎明破晓前伊桑·霍克,朱莉·德尔佩,安德莉亚·埃克特1995-01-27(美国)8.7
61窃听风暴乌尔里希·穆埃,塞巴斯蒂安·科赫,马蒂娜·格德克2006-03-23(德国)9.0
62飞屋环游记爱德华·阿斯纳,克里斯托弗·普卢默,乔丹·长井2009-08-048.9
63低俗小说约翰·特拉沃尔塔,乌玛·瑟曼,塞缪尔·杰克逊1994-05-21(法国)8.7
64飞越疯人院杰克·尼科尔森,路易丝·弗莱彻,威尔·萨姆森1975-11-19(美国)8.8
65天使爱美丽奥黛丽·塔图,马修·卡索维茨,吕菲斯2001-04-25(比利时)8.4
66蝴蝶效应约翰·帕特里克·阿梅多利,罗根·勒曼,卡梅隆·布莱特2004-01-23(美国)8.7
67大话西游之大圣娶亲周星驰,朱茵,莫文蔚2014-10-248.8
68天空之城田中真弓,横泽启子,初井言荣2023-06-019.5
69无间道刘德华,梁朝伟,黄秋生2003-09-059.1
70罗马假日格利高里·派克,奥黛丽·赫本,埃迪·艾伯特1953-08-20(意大利)9.0
71时空恋旅人瑞秋·麦克亚当斯,多姆纳尔·格里森,比尔·奈伊2013-09-04(英国)8.9
72爱在日落黄昏时伊桑·霍克,朱莉·德尔佩,弗农·多布切夫2015-04-208.7
73春光乍泄张国荣,梁朝伟,张震1997-05-30(中国香港)9.2
74心灵捕手罗宾·威廉姆斯,马特·达蒙,明妮·德里弗1997-12-05(美国)8.4
75穿条纹睡衣的男孩阿沙·巴特菲尔德,维拉·法梅加,大卫·休里斯2008-08-28(英国)9.0
76釜山行孔刘,郑裕美,马东锡2016-05-13 00:00:00(法国)8.9
77控方证人泰隆·鲍华,玛琳·黛德丽,查尔斯·劳顿1957-12-17(美国)8.5
78七宗罪布拉德·皮特,摩根·弗里曼,格温妮斯·帕特洛1995-09-22(美国)8.7
79菊次郎的夏天北野武,关口雄介,岸本 加世子2020-09-258.8
80重庆森林梁朝伟,王菲,金城武1994-07-14(中国香港)8.6
81猫鼠游戏莱昂纳多·迪卡普里奥,汤姆·汉克斯,克里斯托弗·沃肯2003-04-118.6
82辩护人宋康昊,郭度沅,吴达洙2013-12-18(韩国)8.8
83入殓师本木雅弘,广末凉子,山崎努2021-10-298.6
84花束般的恋爱有村架纯,菅田将晖,细田佳央太2022-02-228.9
85剪刀手爱德华约翰尼·德普,薇诺娜·瑞德,黛安娜·维斯特1990-12-06(美国)8.8
86钢琴家阿德里安·布劳迪,艾米莉娅·福克斯,米乔·赞布罗斯基2002-05-24(法国)8.9
87素媛李甄,薛景求,严智苑2013-10-02(韩国)9.1
88断背山希斯·莱杰,杰克·吉伦哈尔,米歇尔·威廉姆斯2005-09-02(意大利)8.9
89饮食男女郎雄,吴倩莲,杨贵媚1994-08-03(美国)8.8
90十二怒汉亨利·方达,李·科布,马丁·鲍尔萨姆1957-04-13(美国)9.1
91蝙蝠侠:黑暗骑士克里斯蒂安·贝尔,希斯·莱杰,阿伦·伊克哈特2008-07-14(阿根廷)9.3
92两杆大烟枪杰森·弗莱明,德克斯特·弗莱彻,杰森·斯坦森1998-08-28(英国)8.7
93波西米亚狂想曲拉米·马雷克,本·哈迪,约瑟夫•梅泽罗2019-03-229.4
94大鱼伊万·麦克格雷格,阿尔伯特·芬尼,杰西卡·兰格2003-12-04(美国)8.6
95真爱至上休·格兰特,比尔·奈伊,连姆·尼森2003-11-21(英国)8.6
96傲慢与偏见马修·麦克费登,吉娜·马隆,妲露拉·莱莉2008-02-108.4
97模仿游戏本尼迪克特·康伯巴奇,凯拉·奈特莉,马修·古迪2015-07-219.3
98血战钢锯岭安德鲁·加菲尔德,雨果·维文,卢克·布雷西2016-12-089.3
99致命魔术休·杰克曼,克里斯蒂安·贝尔,迈克尔·凯恩2006-10-17(意大利)8.8
100鬼子来了姜文,姜宏波,陈强2000-05-13(法国)8.9
  • 16
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 好的,您想了解如何使用Python爬虫爬取猫眼电影评论,是吗?以下是一个简单的示例代码,可以帮助您开始: ``` import requests import json # 请求头 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} # 爬取数据的网址 url = 'https://m.maoyan.com/mmdb/comments/movie/1299372.json?_v_=yes&offset=0&startTime=0' # 发送请求 response = requests.get(url, headers=headers) # 解析json数据 comments = json.loads(response.text)['cmts'] for comment in comments: print(comment['content']) ``` 这个代码将会向猫眼电影的评论网址发送请求,获取电影《误杀》的评论,并将评论的内容打印出来。 需要注意的是,这只是一个简单的示例代码。如果您想要爬取更多评论,需要修改offset和startTime参数,通过多次请求来获取更多的评论数据。同时,需要遵守网站的爬虫规则,不要过于频繁地发送请求,以免被网站屏蔽。 ### 回答2: Python爬虫是一种用于网页数据抓取的技术,能够让我们自动化地从网页上获取所需的数据。猫眼电影是一个非常受欢迎的电影网站,我们可以利用Python爬虫技术来抓取该网站上的电影评论。 首先,我们需要导入相关的Python库,如requests、BeautifulSoup等,这些库可以帮助我们发送网络请求并解析网页内容。然后,我们可以使用requests发送HTTP请求,获取猫眼电影的网页源代码。 接下来,我们可以使用BeautifulSoup库来解析网页源代码,提取出电影评论所在的HTML标签。通过分析网页结构,可以找到包含评论内容的HTML标签,并使用BeautifulSoup提供的方法将其提取出来。 在提取评论内容后,我们可以将其存储到本地文件或数据库中,以便后续分析和使用。同时,我们也可以进一步提取其他信息,如评论用户的昵称、评分等。 在进行爬取时,我们需要注意一些爬虫的基本道德规范,如尊重网站的隐私政策、遵守网站的访问频率限制等。 总之,利用Python爬虫技术可以方便地获取猫眼电影评论数据,并进行后续分析和应用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值