(8)Python爬虫——爬取豆瓣影评数据

利用python爬取豆瓣最受欢迎的影评50条的相关信息,包括标题,作者,影片名,影片详情链接,推荐级,回应数,影评链接,影评,有用数这9项内容,然后将爬取的信息写入Excel表中。具体代码如下:

#!/usr/bin/python
# -*- coding: utf-8 -*-
import sys

reload(sys)
sys.setdefaultencoding('utf8')
from bs4 import BeautifulSoup
import re
import urllib2
import xlwt


# 得到页面全部内容
def askURL(url):
    request = urllib2.Request(url)  # 发送请求
    try:
        response = urllib2.urlopen(request)  # 取得响应
        html = response.read()  # 获取网页内容
        # print html
    except urllib2.URLError, e:
        if hasattr(e, "code"):
            print e.code
        if hasattr(e, "reason"):
            print e.reason
    return html


# 获取相关内容
def getData(baseurl):
    # 找到评论标题
    pattern_title = re.compile(r'<a href=".*/review/\d+
好的,下面是一个简单的 Python 爬虫示例,用于爬取豆瓣电影《肖申克的救赎》的短评: ```python import requests from bs4 import BeautifulSoup url = 'https://movie.douban.com/subject/1292052/comments?status=P' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} response = requests.get(url, headers=headers) soup = BeautifulSoup(response.content, 'html.parser') comments = soup.find_all('span', 'short') for comment in comments: print(comment.string) ``` 解释一下代码: - 首先,我们需要导入 `requests` 和 `BeautifulSoup` 库; - 然后,我们定义了一个变量 `url`,用于存储我们要爬取的页面链接; - 接下来,我们定义了一个变量 `headers`,用于存储请求头信息,这里添加了 User-Agent 信息,是为了避免被网站反爬虫机制拦截; - 使用 `requests.get()` 方法,向目标网站发起请求,并将响应结果存储到 `response` 变量中; - 使用 `BeautifulSoup` 将响应结果转换为 BeautifulSoup 对象,方便我们使用其提供的方法进行解析; - 使用 `find_all()` 方法,根据 HTML 结构和 class 属性,找到所有电影短评对应的 `span` 标签; - 遍历所有短评,将其内容打印出来。 需要注意的是,网站会针对爬虫进行反爬虫处理,我们需要在代码中添加一些反反爬虫的措施,如添加 headers 信息、设置请求间隔时间等。此外,我们还需要注意网站的 robots.txt 文件,遵守网站的爬虫规则,以免被封禁 IP。
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值