大概花了一个星期的时间,学习了一下网络爬虫的知识,现在使用scrapy能爬一些基本的网页,图片,解决网页编码兼容问题,基础的模拟登陆。对于有些模拟登陆,由于其提交的表单要经过js进行处理后提交;更难的其网页也是经js渲染的,要学会一步步去分析,没有太多的去深入,但我会提到基本的分析方法。
参考文章:
1、http://www.runoob.com/ 一个很好的语言语法入门学习的网站,我主要用其学习了python的语法。
2、http://blog.csdn.net/column/details/why-bug.html 此博客讲了一些网络爬虫的基础知识,包括http,url等,而且一步步讲解了实现爬虫的整个过程。
3、http://doc.scrapy.org/en/latest/intro/tutorial.html scrapy框架的学习教程,从安装讲到应用到常见问题,是个不可多得的参考手册,至少过一遍,对于想深入研究的同学,一定要多看几遍。
4、http://blog.csdn.net/u012150179/article/details/34486677 对于中文输出与保存,实现多网页的爬取,做了实现。
5、http://www.jianshu.com/p/b7f41df6202d
http://www.jianshu.com/p/36a39ea71bfd
对于怎么实现模拟登陆做了较好的解释和实现,当然由于技术的不断更新和动态变化,网站的反爬虫的技术也在不断更新,具体情况,应具体分析。
下面正式进入学习:
环境:ubuntu14.04
一、python
1、python的下载和安装:https://www.python.org/downloads/ 在链接中找到自己需要的版本,记得在研究中基本不用version>3.0的版本,然而有为了支持一些新的功能,基本上version>2.70 and version<3.0是一个比较合适的选择。由于ubuntu14.04的底层有些使用python实现的,所以都带了python,(python2.74的版本或者其它)如果需要不同的版本可在不删除原有版本的基础上下载新版本,并修改软链接即可。ln -s python pythonx.xx中间若有问题,请自行百度解决。
2、python的基础知识学习。熟悉一下基本的语法,重点关注列表,元组,字典,函数和类。其它的若有问题,再返回去学习吧,学习链接在参考中已给出,练习一下,一两天就差不多能搞定了。
二、网络爬虫的基础知识
1、网络爬虫的定义、浏览网页的过程、URI和URL的概念和举例、URL的理解和举例。
2、正则表达式
自己练习一下,如果记不住了看看下面的表。
三、scrapy
1、scrapy的安装
http://doc.scrapy.org/en/latest/intro/install.html 根据你自己应用的平台进行选择。比较简单,不做过多的解释。
2、一个scrapy例子
http://doc.scrapy.org/en/latest/intro/tutorial.html 有几点要注意一下:一是知道如何去调试,二是xpath()和css(),还有要学会使用firebox和firebug分析网页源码和表单提交情况,