scrapy爬虫学习

一. 安装scrapy

1. 参照链接 https://www.cnblogs.com/chunfenggangwan/p/13226200.html

   直接安装失败,手动下载whl包安装

 

2、创建一个scrapy项目

新创建一个目录,按住shift-右键-在此处打开命令窗口

输入:scrapy startproject tutorial即可创建一个tutorial文件夹

文件夹目录如下:

|-tutorial

|-scrapy.cfg

  |-__init__.py

  |-items.py

  |-middlewares.py

  |-pipelines.py

  |-settings.py

  |-spiders

    |-__init__.py

文件的功能:

scrapy.cfg:配置文件

spiders:存放你Spider文件,也就是你爬取的py文件

items.py:相当于一个容器,和字典较像

middlewares.py:定义Downloader Middlewares(下载器中间件)和Spider Middlewares(蜘蛛中间件)的实现

pipelines.py:定义Item Pipeline的实现,实现数据的清洗,储存,验证。

settings.py:全局配置

 

3、创建一个spider(自己定义的爬虫文件)

例如以爬取猫眼热映口碑榜为例子来了解一下:

在spiders文件夹下创建一个maoyan.py文件,你也可以按住shift-右键-在此处打开命令窗口,输入:scrapy genspider 文件名 要爬取的网址。

 

 

   

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值