大家好,出于兴趣,最近在看Scrapy,以前也学习过其他的一些知识,但是因为没有记录,自己学过了,过一段时间就忘记了,原先发现的一些问题,在将来又从头处理了一遍,另外我也看了很多网友分享的文章和代码,决定还是要下决心,坚持学习,坚持记录,不断分享,不断提高。
闲话不多说,以上文字主要是自勉。
开始学习以前,先声明件事情:以下内容及以后的内容,均是我自己学习的理解,一定会有些地方写的不对,或者有歧义,可能和你的认识矛盾或者冲突,勿喷,喜欢看,接着看,不喜欢看,右上角有一个×,点击,就不会看到我了。谢谢!
1、Scrapy是什么?
官网说明我就不翻译了,因为英语很烂。网友说明我也不翻译了,抄来抄去的,大家看着就想喷。
就我个人觉得,Scrapy就是一个工具,这套工具很强大,很自由,用起来很爽,因为你可以发挥你的创造力用好这个工具。那么这个工具是干什么呢?我现在用它学习的时候就是从网站上爬取我想要的数据,毕竟不是所有网站都提供数据调用接口的,更多的网站数据想要获取下来,要么付费,要么获取不到所有,所以这个工具出现了,一个爬取网页的工具。
2、Scrapy需要什么样的环境?
目前,最新版本是1.2.1。运行于Python2.7和Python3(更高)。因为Scrapy需要依赖于Twisted,而Twisted不支持Windows环境的Python3,所以在Windows的Python3是不能用Scrapy。
3、Linux安装Scrapy。
Scrapy对于python来说,就是一个module。所以安装方式和安装module一样的,也是通过pip和easy_install。
我用的Linux Mate。系统是基于Ubuntu的,官方文档中建议不要使用系统中的python-scrapy,因为版本太老了,所以需要先更新系统的依赖包。$
$ sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
$ sudo pip2 install scrapy
pip之所以用pip2,是因为我的系统中pip默认是使用Python3。
4、Windows安装Scrapy。
这个安装就非常复杂了,因为单纯的pip会提示很多错误,缺这个缺那个。不过有牛人写的一篇文章很不错,大家看看http://blog.csdn.net/simple__happyness/article/details/52056486
我转载的地址:https://my.oschina.net/namespace/blog/777694
5、测试环境安装成功打开终端,进入python环境,输入import scrapy没有提示错误即安装成功。
$ python
Python 2.7.12 (default, Jul 1 2016, 15:12:24)
[GCC 5.4.0 20160609] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import scrapy
>>>