豆瓣的影评爬取

最新推荐文章于 2024-08-01 14:57:53 发布

Fuximi

最新推荐文章于 2024-08-01 14:57:53 发布

阅读量1.9k

点赞数 4

分类专栏： Python 文章标签：爬虫 Python

本文链接：https://blog.csdn.net/sweet_dew/article/details/79900095

版权

Python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

豆瓣的影评爬取

相比较于上一篇新闻类数据的爬取，这篇文章多了一些关于登录账号的处理

有时登陆网站需要进行头部伪装, 比如增加头部, 还有模拟服务器登陆
* header: 我们可以加一个header（一些反爬虫的机制），设置置代理，有些网站是反爬虫，所以要将其伪装成浏览器
* Format：是登录的账号和密码以及登录失败是重定向的网址，需要注意的是登录账号和密码的

step1:我们先看一下豆瓣登录时候账号和尼玛的格式
通过豆瓣的登录界面

Hint：通过Google Chrome浏览器的右键”检查”，找到Network->Form Data找到登录账号和密码的格式，不同的网站登录的format可能会不一样。

这里写图片描述
先新建一个scrapy的project,然后再douban_book.py中编写主要的code

下面是添加header和formdata

class MailSpider(scrapy.Spider):
    name = 'douban_comment'
    allowed_domains=['account.douban.com','douban.com']
    stat_urls=['https://www.douban.com/']
    #headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:51.0) Gecko/20100101 Firefox/51.0',
    headers={
             'Accept': 'application/json, text/javascript, */*; q=0.01',
             'Accept-Encoding':'gzip, deflate, sdch, br',
             'Accept-Language': 'en-US,en;q=0.8',
             'Accept-Charset':'utf-8',
             'Host':'accounts.douban.com',
             'Cache-Control': 'max-age=0',
             'Connection': 'keep-alive',
             'User-Agent':f.user_agent()}

    formdata={
        'form_email':'284600723@qq.com',
        'form_password':'284600723ganlu',
        'login':'登录',
        'redir':'https://www.douban.com/',
        'source':'None'
    }

 重写了爬虫类的方法, 实现了自定义请求, 运行成功后会调用callback回调函数

def start_requests(self):
    return [scrapy.Request(url='https://accounts.douban.com/login',
                           headers=self.headers,
                           meta={'cookiejar':1},
                           callback=self.parse_login)]

大部分登录的时候需要输入验证码，本文就采用比较暴力的解法，获取验证码的image，然后手动输入验证码进行验证

使用FormRequest.from_response()方法模拟用户登录：

通常网站通过实现对某些表单字段（如数据或是登录界面中的认证令牌等）的预填充
使用Scrapy抓取网页时，如果想要预填充或重写像用户名、用户密码这些表单字段，可以使用 FormRequest.from_response() 方法实现。

Cookie的保存

为了能使用同一个状态持续的爬取网站, 就需要保存cookie, 使用cookie保存状态, Scrapy提供了cookie处理的中间件, 可以直接拿来使用。
通过CookiesMiddleware

def parse_login(self,response):
    #如果需要验证码需要人为处理
    s = "captcha_image"
    s=bytes(s, encoding = "utf8")
    if s in response.body:
        link=response.xpath('//*[@id="captcha_image"]/@src').extract()[0]
        captcha_solution=input('captcha_solution:')
        captcha_id=urllib.parse.parse_qs(urllib.parse.urlparse(link).query,True)['id']
        self.formdata['captcha_solution']=captcha_solution
        self.formdata['captcha_id']=captcha_id
    # 登陆成功后, 会调用after_login回调函数
    return [scrapy.FormRequest.from_response(response,
                                             formdata=self.formdata,
                                             headers=self.headers,
                                             meta={'cookiejar':response.meta['cookiejar']},
                                             callback=self.afterlogin
                                             )]

在登录豆瓣之后，需要做两件事：
* 1，在这个页面获取对应的评论的URL。
* 2，获取下一页。

Hint：解析下一页的时候需要再scrapy.Request的一个参数”don’t_filter=True”加上这个去重的操作。

def afterlogin(self,response):
    print('afterlogin: response.url',response.url)
    self.headers['Host']='www.douban.com'
    #同一个页面解析了两次
    #每个详细的影评的url 拿出来
    url='https://movie.douban.com/review/best/'
    yield scrapy.Request(url=url,
                          meta={'cookiejar':response.meta['cookiejar']},
                          headers=self.headers,
                          callback=self.parse_comment_url
                         )
    yield scrapy.Request(url=url,
                          meta={'cookiejar':response.meta['cookiejar']},
                          headers=self.headers,
                          callback=self.parse_next_page,
                         dont_filter=True #加上这个第二次才会生效，默认去重的操作，  加上之后不去重
                         )

解析出下一页

def parse_next_page(self,response):
    print(response.status)
    try:
        next_url=response.urljoin(response.xpath('//span[@class="next"]/a/@herf')).extract()[0]
        yield scrapy.Request(url=next_url,
                          meta={'cookiejar':response.meta['cookiejar']},
                          headers=self.headers,
                          callback=self.parse_comment_url,
                          dont_filter=True
                         )

        yield scrapy.Request(url=next_url,
                          meta={'cookiejar':response.meta['cookiejar']},
                          headers=self.headers,
                          callback=self.parse_next_page,
                          dont_filter=True #加上这个第二次才会生效，默认去重的操作，  加上之后不去重
                         )
    except:
        print('next page error')
        return

下面就网页的内容分别提取出评论的链接和解析评论中有用的内容。

def parse_comment_url(self,response):
    for item in response.xpath('//div[@class="main review-item"]'):#定位一个相同的节点后，会自动寻找
        comment_url=item.xpath('div[@class="main-bd"]/h2/a/@href').extract()[0]
        comment_title=item.xpath('div[@class="main-bd"]/h2/a/text()').extract()[0]
        yield scrapy.Request(url=comment_url,
                          meta={'cookiejar':response.meta['cookiejar']},
                          headers=self.headers,
                          callback=self.parse_comment,
                          dont_filter=True
                             )

def parse_next_page(self,response):
    print('parse_next_page response.status :',response.url)
    try:
        next_url='https://movie.douban.com'+str(response.xpath('//div[@class="paginator"]/span[@class="next"]/a/@href').extract()[0])
        yield scrapy.Request(url=next_url,
                          meta={'cookiejar':response.meta['cookiejar']},
                          headers=self.headers,
                          callback=self.parse_comment_url,
                          dont_filter=True
                         )

        yield scrapy.Request(url=next_url,
                          meta={'cookiejar':response.meta['cookiejar']},
                          headers=self.headers,
                          callback=self.parse_next_page,
                          dont_filter=True #加上这个第二次才会生效，默认去重的操作，  加上之后不去重
                         )
    except:
        print('next page error')
        return

def parse_comment(self,response):
    comment=DoubanMovieCommentItem()
    comment['useful_num']=response.xpath('//div[@class="main-panel-useful"]/button[1]').extract()[0]
    comment['no_help_num']=response.xpath('//div[@class="main-panel-useful"]/button[2]').extract()[0]
    comment['comment'] = response.xpath('//div[@id="link-report"]/div/text()').extract()
    comment['title'] = response.xpath('//div[@class="article"]/h1/span[@property="v:summary"]/text()').extract()[0]
    comment['comment_page_url'] = response.xpath('//div[@id="link-report"]/div/@data-url').extract()[0]
    yield  comment

在items.py中

class DoubanMovieCommentItem(scrapy.Item):
    useful_num=scrapy.Field()                      #域和值
    no_help_num=scrapy.Field()
    people=scrapy.Field()
    people_url=scrapy.Field()
    start=scrapy.Field()
    comment=scrapy.Field()
    title=scrapy.Field()
    comment_page_url=scrapy.Field()

在piplines.py中

class DoubanMovieCommentPipeline(object):
    def process_item(self, item, spider):
        return item

在settings.py中，需要配置一次跑一个爬虫的话，需要指定用哪个pipeline

ITEM_PIPELINES = {
    #'douban_book.pipelines.DoubanBookPipeline': 300,
    'douban_book.pipelines.DoubanMovieCommentPipeline': 900,
}

response的状态
200
https://blog.csdn.net/GarfieldEr007/article/details/77984065

在根目录下新建一个begin.py作为执行scrapy的文件

from scrapy import cmdline
cmdline.execute("scrapy crawl douban_comment -o comment.csv".split())

1xx：指示信息–表示请求已接收，继续处理
2xx：成功–表示请求已被成功接收、理解、接受
3xx：重定向–信息不完整需要进一步补充
4xx：客户端错误–请求有语法错误或请求无法实现
5xx：服务器端错误–服务器未能实现合法的请求

常见http响应状态码：
请求收到，继续处理：
100 客户端必须继续发出请求
101 客户端要求服务器根据请求转换HTTP协议版本

 操作成功收到，分析，接受：
        200      交易成功
        201      提示知道新文件的URL
        202      接受和处理、但处理未完成
        203      返回信息不确定或不完整
        204      请求收到，但返回信息为空
        205      服务器完成了请求，用户代理必须复位当前已经浏览过的文件
        206      服务器已经完成了部分用户的GET请求

 重定向：
        300      请求的资源可在多处得到
        301      永久重定向，在Location响应首部的值仍为当前URL(隐式重定向)
        302      临时重定向，在Location响应首部的值仍为新的URL(显示重定向)
        303      建议客户端访问其他URL或访问方式
        304      Not Modified 请求的资源没有改变 可以继续使用缓存
        305      请求的资源必须从服务器指定的地址得到
        306      前一版本HTTP中使用的代码，现行版本中不再使用
        307      声明请求的资源临时性删除

 客户端错误：
        400      错误请求，如语法错误
        401      未授权
           HTTP 401.1    未授权，登录失败
           HTTP 401.2    未授权，服务器配置问题导致登录失败
           HTTP 401.3    ACL  禁止访问资源
           HTTP 401.4    未授权  授权被筛选器拒绝
           HTTP 401.5    未授权  ISAPI或CGI授权失败
        402      保留有效ChargeTo头响应
        403      禁止访问
           HTTP 403.1    禁止访问  禁止可执行访问
           HTTP 403.2    禁止访问  禁止读访问
           HTTP 403.3    禁止访问  禁止写访问
           HTTP 403.4    禁止访问  要求SSL
           HTTP 403.5    禁止访问  要求SSL 128
           HTTP 403.6    禁止访问  IP地址被拒绝
           HTTP 403.7    禁止访问  要求客户端证书
           HTTP 403.8    禁止访问  禁止站点访问
           HTTP 403.9    禁止访问  连接的用户过多
           HTTP 403.10   禁止访问  配置无效
           HTTP 403.11   禁止访问  密码更改
           HTTP 403.12   禁止访问  映射器拒绝访问
           HTTP 403.13   禁止访问  客户端证书已被吊销
           HTTP 403.15   禁止访问  客户端访问许可过多
           HTTP 403.16   禁止访问  客户端证书不可信或者无效
           HTTP 403.17   禁止访问  客户端证书已经到期或者尚未生效
        404       没有发现文件、查询或URL
        405       用户在Request-Line字段定义的方法不允许
        406       根据用户发送的Accept拖，请求资源不可访问
        407       类似401，用户必须首先在代理服务器上得到授权
        408       客户端没有在用户指定的饿时间内完成请求
        409       对当前资源状态，请求不能完成
        410       服务器上不再有此资源且无进一步的参考地址
        411       服务器拒绝用户定义的Content-Length属性请求   
        412       一个或多个请求头字段在当前请求中错误
        413       请求的资源大于服务器允许的大小
        414       请求的资源URL长于服务器允许的长度
        415       请求资源不支持请求项目格式
        416       请求中包含Range请求头字段，在当前请求资源范围内没有range指示值，       请求也不包含If-Range请求头字段
        417       服务器不满足请求Expect头字段指定的期望值，如果是代理服务器，可能是下一级服务器不能满足请求长
 服务器端错误: 
        500 - 内部服务器错误
           HTTP 500.100 - 内部服务器错误 
           HTTP 500-11 服务器关闭
           HTTP 500-12 应用程序重新启动
           HTTP 500-13 - 服务器太忙
           HTTP 500-14 - 应用程序无效
           HTTP 500-15 - 不允许请求 
        501 - 未实现
        502 - 网关错误
        503 - 服务不可用
        504 - 网关超时

nodename Xpath解析文本，选取此节点的所有子节点。
* / 从根节点选取。
* // 从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
* . 选取当前节点。
* .. 选取当前节点的父节点。
* @ 选取属性。