爬取人民日报_scrapy爬虫爬取新闻入坑第一课

话不多说先上代码:爬取人民日报

下面一步一步的介绍整个scrapy的架构

首先我们要先下载scrapy框架,这里解释一下框架和库的区别:框架是一种有别于软件,但是面向开发者的一种工具,是一种产品的形式,而库则只是一种代码的集合。

下载scrapy:

pip install scrapy

这里使用的python版本是Python3.5,有些同学在装scrapy的时候可能会报miss c++ 14.0的错误,这里解决方法就是缺少Twisted这个依赖,这里需要自己去这里下载并安装这个依赖

安装好以后我们就进入正题。

首先,我们要新建一个目录:

scrapy startproject myspider

然后进入这个目录并新建一个爬虫文件:

scrapy genspider -t spidername domain.com#这里的domain是你要爬取的网页域名可加可不加

下面我们可以看下文件目录

7c611550100501386982f91ee55df370.png

其中item.py定义了你需要爬取的数据类型,spiders目录里面是你的爬虫,setting中是一些配置信息,pipelines.py中是爬取到的item的存储方式。

下面让我们先看一下spiders目录中我们最关心爬虫部分:

话不多说上代码:

from scrapy.spiders i

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值