爬取某网站电影评论

import time
import parsel
import requests

cookies = {
    'bid': '2ojSM7NZlZ4',
    '_pk_id.100001.4cf6': '798e7538cabadf94.1705643112.',
    '__utmz': '223695111.1705643113.1.1.utmcsr=cn.bing.com|utmccn=(referral)|utmcmd=referral|utmcct=/',
    '__yadk_uid': 'FKnUrqRP2evlUolPzFnL80YX7J0RTFB1',
    'll': '"108301"',
    '__utmz': '30149280.1705913803.3.2.utmcsr=cn.bing.com|utmccn=(referral)|utmcmd=referral|utmcct=/',
    '_pk_ref.100001.4cf6': '%5B%22%22%2C%22%22%2C1710207103%2C%22https%3A%2F%2Fcn.bing.com%2F%22%5D',
    '_pk_ses.100001.4cf6': '1',
    '__utma': '30149280.773185341.1705643113.1705913803.1710207103.4',
    '__utmb': '30149280.0.10.1710207103',
    '__utmc': '30149280',
    '__utma': '223695111.1029478157.1705643113.1705645528.1710207103.3',
    '__utmb': '223695111.0.10.1710207103',
    '__utmc': '223695111',
    'ap_v': '0,6.0',
}

headers = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Cache-Control': 'max-age=0',
    'Connection': 'keep-alive',
    # 'Cookie': 'bid=2ojSM7NZlZ4; _pk_id.100001.4cf6=798e7538cabadf94.1705643112.; __utmz=223695111.1705643113.1.1.utmcsr=cn.bing.com|utmccn=(referral)|utmcmd=referral|utmcct=/; __yadk_uid=FKnUrqRP2evlUolPzFnL80YX7J0RTFB1; ll="108301"; __utmz=30149280.1705913803.3.2.utmcsr=cn.bing.com|utmccn=(referral)|utmcmd=referral|utmcct=/; _pk_ref.100001.4cf6=%5B%22%22%2C%22%22%2C1710207103%2C%22https%3A%2F%2Fcn.bing.com%2F%22%5D; _pk_ses.100001.4cf6=1; __utma=30149280.773185341.1705643113.1705913803.1710207103.4; __utmb=30149280.0.10.1710207103; __utmc=30149280; __utma=223695111.1029478157.1705643113.1705645528.1710207103.3; __utmb=223695111.0.10.1710207103; __utmc=223695111; ap_v=0,6.0',
    'Sec-Fetch-Dest': 'document',
    'Sec-Fetch-Mode': 'navigate',
    'Sec-Fetch-Site': 'same-origin',
    'Sec-Fetch-User': '?1',
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
    'sec-ch-ua': '"Not_A Brand";v="8", "Chromium";v="120", "Google Chrome";v="120"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '"Windows"',
}
dit = {}
def get_id():
    for start in range(0,100,20):
        time.sleep(1)
        url = 'https://movie.douban.com/j/chart/top_list'
        params = {
            'type': '17',
            'interval_id': '100:90',
            'action': '',
            'start': start,
            'limit': '20',
        }
        json_data = requests.get(url=url, params=params, cookies=cookies, headers=headers).json()
        for index in json_data:
            title = index['title']
            id = index['id']
            types = ''.join(index['types'])
            dit[title] = id

    return dit

def get_comments(id):
    for i in range(0,100,20):
        url = f'https://movie.douban.com/subject/{id}/comments'
        params = {
            'start': i,
            'limit': '20',
            'status': 'P',
            'sort': 'new_score',
        }

        response = requests.get(url=url, params=params, cookies=cookies, headers=headers)
        selector = parsel.Selector(response.text)
        comments_list = selector.css('#comments .comment-item ')
        for index in comments_list:
            title = index.css('.comment-info a::text').get()
            comment = index.css('p.comment-content .short::text').get()
            time = index.css('.comment-time::text').get().strip()
            print(title,comment,time)
if __name__ == '__main__':
    print('请等待几秒钟')
    dits = get_id()
    print('我们返回的是热门电影的评论')
    title = input('请输入你想看的电影名:')
    id = dits[title]
    get_comments(id)

总结:

1.写这个案例的目的一是回忆了css选择器的语法,要获取文本数据,必须在后面加.get(),而这我总是忘记。

2.定义了两个函数,一个用来获取电影id,一个用来获取评论,并做了简单的交互。

3.熟悉了生成字典的方法

dit = {}
for index in json_data:
    title = index['title']
    id = index['id']

    dit[title] = id

4.这样子的速度很慢,肯定有其他的方法可以提升速度,这就放在后面学习,先埋下一个伏笔。

结果展现:

影志 “如果再也不能见到你,祝你早安,午安和晚安。” 2005-12-28 01:22:04
伊卡洛斯 他用别人的相片拼凑出她的样子, 在这个虚假的,冷漠无情的世界里只有这份思念是唯一的真实 2010-03-25 14:01:04
Qing 最讽刺的难道不是电视旁的所谓观众么?导演老头子都比他们真情实感多了 观众为了他落泪欢呼击掌又如何 之前却从未想过让他离开 之后也只是换了一个节目频道罢了 2017-01-21 14:29:53
齊克斯尼力佐飛 就算是已经完全知道剧情走向也还是被震撼被感动。就算你能摄影我的一切也无法在我脑内安装摄影机。 2011-09-25 20:15:37
沉歌 打开这道门,即便现实再最肮脏也请让我自己感受!关掉你的镜头,即使现实再无奈你也必须自己体验! 2007-10-18 11:55:48
米姐起飞 要想阻挡我 只有杀我 2008-01-28 23:51:11
范困 我是不是也在楚门的世界活着? 2008-05-20 14:28:07
同志亦凡人中文站 当你望着深渊的时候,深渊也在回望你。楚门之外的世界,又会有怎么样的窥探?最怕的是,我们永远无法求证自己身处在哪个世界。 2013-03-14 22:14:39
贾不许 Good morning, and in case I don't see ya, good afternoon, good evening, and good night!
 2008-12-08 16:31:21
开心街的笨菠菜 不止一次的怀疑所有人都在演戏,而我却蒙在鼓里 2011-07-13 22:24:31
理想多钱一斤啊 原来植入广告那都是人家美国人玩剩下的玩意儿…… 2009-10-07 18:46:27
后天的雨 还记得第一次看完后的震撼。从一出生就在全世界关注下,父母朋友亲人甚至所有30年的人生轨迹都在设定中的楚门,在逐渐剥开疑团揭露残酷真相后,他有勇气走出这个巨大的牢笼,而我们每个人又何尝不是楚门,都在某种程度上被设定被限制被禁锢,又有几个会寻找自由挣脱桎梏。 2016-11-05 23:09:29
波波维奇 影片结尾两个保安的话让我不寒而栗,楚门到底有没有走出楚门的世界? 2018-03-07 22:15:53
金鱼先生 最后一个镜头太讽刺了。上一秒观众们还为楚门的决定欢呼雀跃,下一秒就开始转台搜寻下一档节目以供饭后娱乐。 2020-12-02 21:27:54
掉线 神作!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! 2011-09-17 13:06:49
方轮自行车 这部电影是我妈最喜欢的金凯瑞的电影。她看到影片结尾处,楚门打开那扇通向未知的门的时候,说大概对他来说一辈子活在这个小盒子里,一无所知的活在谎言里才是幸福的。然后我说,自己选择的不幸也好过被强加的幸福。我妈就叹气,说我知道你将来会要远走高飞,你这样的孩子总归是关不住的。 2011-05-18 14:42:24
米粒 早安,午安,晚安。楚门跨出那一步的时候真的非常非常感人。或许我们都太过于妥协,生活在一个虚幻的世界里。去吧,去斐济吧,去找喜欢的姑娘吧。 2010-09-27 11:16:02
办公室甜心 我曾经也这样幻想过,或者类似这样的幻想过,周遭的世界会不会是和我眼里的完全不一样,还是他们所有都只是仅仅用来取悦和满足某种需求而存在,被窥视的一生和被监视的触感时时都从背脊传来。金凯瑞的表演太棒了,你永远都阻挡不了一颗追寻真相和自由的心。 2012-03-19 02:35:48
眠去 我不要,永远不要被操控。 2007-03-03 12:04:30
大島 希望找到这世界的EXIT 2018-06-18 12:14:38
大头绿豆 其实电影本身编得并不算十分出色,照顾到了一些细节,但破绽也浑身上下都是。不过,在乎的不是这个故事编得如何,而是这个idea,让人不由环视一下自己的周遭。以前在科幻世界上也看过类似的桥段,有关地球仪的。 2008-12-08 20:46:24
takisan 每个人都向往自由而不仅仅是安定 2006-04-21 06:59:26
流空破刃 大概是00年,我12岁那阵,明珠台午后剧场,我一个人蹲在房间从开始的呵欠连天一直看到最后连广告插播都不敢走,这是我第一次记忆清晰的看电影看到哭得一塌糊涂并且结束后依然不能抽离,也是我第一次真正的入戏。某种意义上算是我的启蒙电影。今天再看,still into me。 2011-01-24 20:54:09
雨果 我觉得这部《楚门的世界》特别应景地呼应了那句话,你要相信世界上总有另一个你,在另一个地方,做着你从未做过的事。也许在楚门身上我们每个人都能找到自己的影子,无论是那个活在被操纵的世界中的他,还是发现真相后勇往直前的他。“如果再也不能见到你,祝你早安,午安,晚安。”  神作! 2016-12-13 17:56:39
Q。 “如果再也不能见到你,祝你早安,午安,晚安。”事实,究竟是不是事实呢?★★★★☆ 2008-10-19 17:14:45 

 

 

 

  • 19
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

努力学习各种软件

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值