从零开始学习scrapy：一，使用scrapy模拟登录并获取页面数据

最新推荐文章于 2024-09-07 18:05:33 发布

nickey_1314

最新推荐文章于 2024-09-07 18:05:33 发布

阅读量3.7k

点赞数 4

分类专栏： scrapy 文章标签： pyhon scrapy 爬虫模拟登陆

本文链接：https://blog.csdn.net/nickey_1314/article/details/80754188

版权

本文从零开始介绍如何使用scrapy框架进行模拟登录，并获取特定网站的页面数据。通过实例展示了如何定义数据实体、编写爬虫逻辑，以及处理登录后的回调函数，以获取登录后才能查看的内容。

摘要由CSDN通过智能技术生成

本次需要获取数据的网址是 http://www.zimuzu.tv/today
这里写图片描述
这是登录情况下访问显示的界面
我们的目标是获取所有当天更新的美剧名字

我们尝试一下在没有登录情况下访问这个页面，会是一个什么样的情况
这里写图片描述
我们可以看到，“请登录网站”的字样。
这个我们可以作为程序判断是否需要运行模拟登录流程的条件

本过程是直接从新建了scrapy项目并在Pycharm上运行开始

定义数据实体
找到项目中的items.py文件

import scrapy

class MovieItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    name = scrapy.Field()

因为我们这次简单例子只是想获取美剧的名字，所以只定义一个name就可以了

import scrapy
from  scrapy import log
from movie.items import MovieItem

class MeijuSpider(scrapy.Spider):
    name = 'meiju'
    allowed_domains = [

关注

专栏目录