因为最近的任务和抓取网页信息有关,所以开始研究web crawler。
网络上开源的爬虫种类很多,我最终决定用scrapy,因为它灵活,强大,而且扩展性强。
但是我是个超级菜鸟,所以连配置个scrapy都搞了一天多,期间更是各种吐槽各种恶心。网上有不少类似的教程,但是我花了一天多的时间去试了很多个不同的教程,结果发觉是各种坑爹啊,最后浏览了官网才搞掂。
现在,为了以后避免犯类似的错误,我决定记录下来自己的心得。
1.安装python2.6.这里选择的是python2.6,为什么选择这个版本,首先,scrapy官网上明确写出:requirements:
Python 2.5, 2.6, 2.7 (3.x is not yet supported), 即目前只支持python2.5,2.6,2.7.3以上版本的python还不支持.而本人在从前使用scrapy开发的过程种发现2.5仍然又某些bug,具体的就暂时不说了。http://www.codepub.com/software/Python-12776.html 由于python官网偶尔打不开(打不开我想你懂的!),所以给了个国内的下载链接,这个链接也又可能又一天不能使用。所以需要同学们自己下了。安装python,解压后得到右边图标,双击安装,几乎不用设置就能成功,也就是说在这里如果你python环境都不会安装的话,就没必要在看后面的了,所以python的安装我真的想偷懒了。不过还是要说环境变量设置上,在我的电脑-》高级环境变量里的path种设置刚才我安装的pyton的根文件目录,这里将C:\Python26加入到环境变量:,到这里安装python结束,在cmd模式下输入执行python,产生下面的类似的画面表示python安装成功.
2. 在这里下载:http://pypi.python.org/packages/2.6/s/setuptools/setuptools-0.6c11.win32-py2.6.exe 这些我给出的链接只是我当前找到的我能使用的,加入你不好使,可以尝试换一个,秉承一个原则是即是setuptools工具又是对于py2.6的。,双击这个图标执行。那么执行后在python根目录下的scripts文件夹里就会有easy_install.py等文件了,都带有easy_install字眼。easy_install工具安装完成。(记得把Scripts的目录添加到path中去)
3.
Installing with easy_install
You can install Scrapy using setuptools‘s easy_install with:
“easy_install -U Scrapy”
以上是我结合两个教程的方法,然后就这样搞掂啦,其实现在看起来觉得很简单,但是因为事前对这些都不了解,所以走了很多弯路,最后得出的结论就是上官网才是硬道理。http://doc.scrapy.org/en/latest/intro/install.html#intro-install
还有这份我觉得写得比较详细比较好,但最后我试过不行的教程,但我还是觉得它很有参考价值,所以先收了再说:
未来的路还长着,准备努力工作!