毕设就是与python有关的课题,因此对python产生极大的兴趣,最近想学习爬虫,写写博客记录一下学习过程吧!
一、什么是爬虫?
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
二、需要学习什么?
根据网上的资料大概整理为以下几个方面:
- Python基础知识
- Python中urllib和urllib2库的用法
- Python正则表达式
- Python爬虫框架Scrapy
- Python爬虫更高级的功能
python的基础学习我推荐看廖雪峰老师的教程,很详细!
建议直接学习python3,python2与python3还是有挺多东西不一样的,为了少遇到令人头疼的兼容性问题直接开始学习python3吧!