从零开始学习scrapy:一,使用scrapy模拟登录并获取页面数据

本文从零开始介绍如何使用scrapy框架进行模拟登录,并获取特定网站的页面数据。通过实例展示了如何定义数据实体、编写爬虫逻辑,以及处理登录后的回调函数,以获取登录后才能查看的内容。
摘要由CSDN通过智能技术生成

从零开始学习scrapy:一,使用scrapy模拟登录并获取页面数据

前言

本次需要获取数据的网址是 http://www.zimuzu.tv/today
这里写图片描述
这是登录情况下访问显示的界面
我们的目标是获取所有当天更新的美剧名字

假设

我们尝试一下在没有登录情况下访问这个页面,会是一个什么样的情况
这里写图片描述
我们可以看到,“请登录网站”的字样。
这个我们可以作为程序判断是否需要运行模拟登录流程的条件

过程

本过程是直接从新建了scrapy项目并在Pycharm上运行开始

第一步

定义数据实体
找到项目中的items.py文件

import scrapy

class MovieItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    name = scrapy.Field()

因为我们这次简单例子只是想获取美剧的名字,所以只定义一个name就可以了

编写爬虫逻辑

import scrapy
from  scrapy import log
from movie.items import MovieItem

class MeijuSpider(scrapy.Spider):
    name = 'meiju'
    allowed_domains = [
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值