欢迎捧场,博主前一段时间零零碎碎地学习了一些python爬虫的知识,现在把一些学习内容整理出来,水平有限,难免出现错误,希望大家能够批评指正,谢谢。
该系列博客的内容参照 崔庆才|静觅的博客内容完成,谢谢授权。
Python 版本:3.5
预备知识:Python基础,HTTP协议,正则表达式,urllib库或者其他第三方库,如:BeautifulSoup。
Python基础:
在学习Python的时候,我也是在网上零零碎碎找了很多东西来看,不过最主要的还是廖雪峰老师的教程,个人很喜欢。举例说明一下廖老师给自己写的文章《彪悍的职业不惧阿尔法狗》,哈哈。
软件工程师也不用担心,因为写程序也是一种创造性的工作。有人担心将来机器学习发展成电脑会自己写程序了怎么办,这实在是杞人忧天。如果你仔细阅读了上文,就会发现,当软件工程师的工作被电脑取代时,地球就即将被AI统治,太阳系离毁灭也不远了。所以说,写程序将是世界上最后一个消失的工作。
从事一种地球上最后一个消失的行业绝对是一个明智的选择。如果你想以小白的身份进入这个行业,不妨从小白的 Python新手教程开始,零基础起步,将来成为机器学习的专家。
ps:学习Python肯定是少不了官方文档的,Python官方文档
HTTP协议:
HTTP协议是从
林炳文Evankaka的一篇博文上入门了自己有找了一些相关的文章看了下,我感觉这篇文章已经将HTTP协议描述的非常清楚了,里边还包括一些爬网页、爬图片的、自动登录的爬虫知识,有兴趣的同学可以看看。地址:
林炳文-爬虫
正则表达式:
正则表达式可以匹配上你需要找到的相关内容,例如,你想搜索一个页面上的图片,可以利用正则表达式匹配上(.jpg|.gif|.png|.bmp)。关于正则表达式的的教程,推荐:
deerchao写的一份教程
urllib库及第三方库BeautifulSoup:
urllib是Python官方提供的库,可以完成一系列的URL操作;
BeautifulSoup是Python的第三方库,我在找资料的时候看见有人说,urllib和BeautifulSoup相比的话,就像是冷兵器和加特林相比,好吧,差距有点大,不过,都看看吧,了解一下总是好的。
其实,在学习爬虫之前,你需要自己成为一个爬虫,然后再互联网上不断的查找自己需要的资料,提取你需要的有价值内容。最后坚持到底吧,共勉