前言
前段时间看了一些介绍Scrapy及用Scarpy进行抓取网络信息的博客。总体来说信息量还是过少,对于一个成熟的框架来说,只看博客还是不够。所以还是看了一遍官方文档。
看完后,总要做点什么来练练手,正好前段时间在网上闲逛的时候找到了一个国内某大神做的某国外博客的聚合类网站。里面涉及到大量博客地址。点击某博客后,会列出该博客下所有视频地址。其实该网站也是一个爬虫。
将所有视频下载下来是不现实的。将博客地址存取下来即可,后续需要的时候再编写一个爬虫用于解析该博客下的所有图片、文字、视频。
Scrapy安装
Scrapy安装用pip即可。本次练习采用的是Python3.5.2,win7 64位系统。集成于Anaconda。官网上推荐如下安装方式:
conda install -c scrapinghub scrapy
但安装完后在startproject的时候出现错误。于是又用pip卸载了scrapy,再用pip安装scrapy,就行了,具体原因不详。。
开始项目
在想要存放项目的位置打开cmd。输入以下命令(XXX为项目名称):
scrapy startproject XXX
编写item
由于该网站结构比较简单,每页可提取出30个博客地址,因此items.py比较简单,只要有一个装数据的容器即可: