从零开始学习scrapy:一,使用scrapy模拟登录并获取页面数据
前言
本次需要获取数据的网址是 http://www.zimuzu.tv/today
这是登录情况下访问显示的界面
我们的目标是获取所有当天更新的美剧名字
假设
我们尝试一下在没有登录情况下访问这个页面,会是一个什么样的情况
我们可以看到,“请登录网站”的字样。
这个我们可以作为程序判断是否需要运行模拟登录流程的条件
过程
本过程是直接从新建了scrapy项目并在Pycharm上运行开始
第一步
定义数据实体
找到项目中的items.py文件
import scrapy
class MovieItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
name = scrapy.Field()
因为我们这次简单例子只是想获取美剧的名字,所以只定义一个name就可以了
编写爬虫逻辑
import scrapy
from scrapy import log
from movie.items import MovieItem
class MeijuSpider(scrapy.Spider):
name = 'meiju'
allowed_domains = [