Python3爬虫学习笔记0.0——综述

欢迎捧场,博主前一段时间零零碎碎地学习了一些python爬虫的知识,现在把一些学习内容整理出来,水平有限,难免出现错误,希望大家能够批评指正,谢谢。

该系列博客的内容参照 崔庆才|静觅的博客内容完成,谢谢授权。

Python  版本:3.5

预备知识:Python基础,HTTP协议,正则表达式,urllib库或者其他第三方库,如:BeautifulSoup。

Python基础:

在学习Python的时候,我也是在网上零零碎碎找了很多东西来看,不过最主要的还是廖雪峰老师的教程,个人很喜欢。举例说明一下廖老师给自己写的文章《彪悍的职业不惧阿尔法狗》,哈哈。

软件工程师也不用担心,因为写程序也是一种创造性的工作。有人担心将来机器学习发展成电脑会自己写程序了怎么办,这实在是杞人忧天。如果你仔细阅读了上文,就会发现,当软件工程师的工作被电脑取代时,地球就即将被AI统治,太阳系离毁灭也不远了。所以说,写程序将是世界上最后一个消失的工作。

从事一种地球上最后一个消失的行业绝对是一个明智的选择。如果你想以小白的身份进入这个行业,不妨从小白的 Python新手教程开始,零基础起步,将来成为机器学习的专家。

ps:学习Python肯定是少不了官方文档的,Python官方文档

HTTP协议:

HTTP协议是从  林炳文Evankaka的一篇博文上入门了自己有找了一些相关的文章看了下,我感觉这篇文章已经将HTTP协议描述的非常清楚了,里边还包括一些爬网页、爬图片的、自动登录的爬虫知识,有兴趣的同学可以看看。地址: 林炳文-爬虫

正则表达式:

正则表达式可以匹配上你需要找到的相关内容,例如,你想搜索一个页面上的图片,可以利用正则表达式匹配上(.jpg|.gif|.png|.bmp)。关于正则表达式的的教程,推荐:  deerchao写的一份教程

urllib库及第三方库BeautifulSoup:

urllib是Python官方提供的库,可以完成一系列的URL操作; BeautifulSoup是Python的第三方库,我在找资料的时候看见有人说,urllib和BeautifulSoup相比的话,就像是冷兵器和加特林相比,好吧,差距有点大,不过,都看看吧,了解一下总是好的。

其实,在学习爬虫之前,你需要自己成为一个爬虫,然后再互联网上不断的查找自己需要的资料,提取你需要的有价值内容。最后坚持到底吧,共勉


                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值