使用BeautifulSoup爬取烂番茄

from pyquery import PyQuery as pq
from bs4 import BeautifulSoup
from bs4.element import Tag
import requests

headers = {

    'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36',
    'Referer': 'https://www.google.com/'
}
if __name__ == '__main__':
    data = {}  # 用于存放所有的数据

    id = 'a_week_away'

    name = 'https://www.rottentomatoes.com/m/%s/reviews' % (id)

    doc = requests.get(url=name, headers=headers)

    soup = BeautifulSoup(doc.content, 'lxml')

    # 找到一共需要遍历多少页面
    # 这里需要考虑一种情况,就是有的电影的评论少是不需要翻页的


    if len(soup.select('.pageInfo')) == 0:
        pageCount = 1
    else:
        pageCount = int(soup.select('.pageInfo')[0].string.split(' ')[-1])

    # 先处理第一张Page

    for item in soup.select('.review_table_row '):
        newsoup = BeautifulSoup(item.prettify(), 'lxml')

        # 获取评论
        review = newsoup.select('.the_review')[0].string.strip()
        # 获取分数
        scores = newsoup.select('.review-link ')[0].prettify().strip().split('\n')
        # 注意这一步得到的是一个字符串列表,分数字符串放在倒数第二的位置上的,但是不一定会有分数

        if scores[-2].find('|') == -1:
            # 说明没有分数
            data[review] = ' '  # 没有分数对应一个空格

        else:
            data[review] = scores[-2].strip()

    # 处理剩下的页面

    for pageId in range(2, pageCount + 1):
        print(pageId)
        newUrl = 'https://www.rottentomatoes.com/m/%s/reviews?type=&sort=&page=%d' % (id, pageId)
        tdoc = requests.get(url=newUrl, headers=headers)
        tsoup = BeautifulSoup(tdoc.content, 'lxml')
        for item in tsoup.select('.review_table_row '):
            newsoup = BeautifulSoup(item.prettify(), 'lxml')

            # 获取评论
            review = newsoup.select('.the_review')[0].string.strip()
            # 获取分数
            scores = newsoup.select('.review-link ')[0].prettify().strip().split('\n')
            # 注意这一步得到的是一个字符串列表,分数字符串放在倒数第二的位置上的,但是不一定会有分数

            if scores[-2].find('|') == -1:
                # 说明没有分数
                data[review] = ' '  # 没有分数对应一个空格

            else:
                data[review] = scores[-2].strip()

    print(data)

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值