Python3爬虫学习笔记0.0——综述

最新推荐文章于 2024-09-25 15:24:27 发布

王凯盛

最新推荐文章于 2024-09-25 15:24:27 发布

阅读量610

点赞数

分类专栏： Python爬虫文章标签： Python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_31211873/article/details/52079691

版权

Python爬虫专栏收录该内容

5 篇文章 0 订阅

订阅专栏

欢迎捧场，博主前一段时间零零碎碎地学习了一些python爬虫的知识，现在把一些学习内容整理出来，水平有限，难免出现错误，希望大家能够批评指正，谢谢。

该系列博客的内容参照崔庆才|静觅的博客内容完成，谢谢授权。

Python 版本：3.5

预备知识：Python基础，HTTP协议，正则表达式，urllib库或者其他第三方库，如：BeautifulSoup。

Python基础：

在学习Python的时候，我也是在网上零零碎碎找了很多东西来看，不过最主要的还是廖雪峰老师的教程，个人很喜欢。举例说明一下廖老师给自己写的文章《彪悍的职业不惧阿尔法狗》，哈哈。

软件工程师也不用担心，因为写程序也是一种创造性的工作。有人担心将来机器学习发展成电脑会自己写程序了怎么办，这实在是杞人忧天。如果你仔细阅读了上文，就会发现，当软件工程师的工作被电脑取代时，地球就即将被AI统治，太阳系离毁灭也不远了。所以说，写程序将是世界上最后一个消失的工作。

从事一种地球上最后一个消失的行业绝对是一个明智的选择。如果你想以小白的身份进入这个行业，不妨从小白的 Python新手教程开始，零基础起步，将来成为机器学习的专家。

ps：学习Python肯定是少不了官方文档的，Python官方文档

HTTP协议：

HTTP协议是从林炳文Evankaka的一篇博文上入门了自己有找了一些相关的文章看了下，我感觉这篇文章已经将HTTP协议描述的非常清楚了，里边还包括一些爬网页、爬图片的、自动登录的爬虫知识，有兴趣的同学可以看看。地址：林炳文-爬虫

正则表达式：

正则表达式可以匹配上你需要找到的相关内容，例如，你想搜索一个页面上的图片，可以利用正则表达式匹配上(.jpg|.gif|.png|.bmp)。关于正则表达式的的教程，推荐： deerchao写的一份教程

urllib库及第三方库BeautifulSoup：

urllib是Python官方提供的库，可以完成一系列的URL操作； BeautifulSoup是Python的第三方库，我在找资料的时候看见有人说，urllib和BeautifulSoup相比的话，就像是冷兵器和加特林相比，好吧，差距有点大，不过，都看看吧，了解一下总是好的。

其实，在学习爬虫之前，你需要自己成为一个爬虫，然后再互联网上不断的查找自己需要的资料，提取你需要的有价值内容。最后坚持到底吧，共勉

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。