首先声明:爬虫不是Python的专利!!!
之所以把这句话放在前面,是因为有太多小白觉得爬虫只能用Python。如果以这样的迷糊状态开启编程之路,就显得有点稀里糊涂了。
Python能在爬虫领域得到广泛利用,主要是它写起来简单,又拥有庞大的类库。有现成的爬虫框架,比如,scrapy;不用框架的话,还有requests 和beautifusoup。
什么是爬虫?
通俗点说就是爬各种数据、图片的工具。官方话术:
网络爬虫(又被称为网页 蜘蛛,网络机器人,在 FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取 万维网信息的程序或者脚本。另外一些不常使用的名字还有 蚂蚁、自动索引、模拟程序或者 蠕虫。
爬虫如何工作?
有着钢铁般身躯的爬虫,工作不是996而是007。
呃 ,不对。这这里是要说它的工作原理:
1、发送请求
使用http库向目标站点发起请求,即发送一个Request
Request包含:请求头、请求体等
Request模块缺陷:不能执行JS 和CSS 代码
2、获取响应内容
如果服务器能正常响应,则会得到一个Response
Response包含:html,json,图片,视频等
3、解析内容
解析html数据:正则表达式(RE模块),第三方解析库如lxml,bs4等
解析json数据:json模块
解析二进制数据:以wb的方式写入文件
4、保存数据
数据库(MySQL,Mongdb、Redis)
文件
如何学习Python爬虫?
鉴于我们都是新手,这里就先学点简单实用的爬虫知识,然后做出一些可以看到成绩的结果吧。比如爬取豆瓣电影排行榜;
1、准备工作
既然开始学习Python爬虫了,pycharm还是必须得下载配置好呗,这是我们写Python代码的工具。
2、Python基础语法知识
写一些简单的爬虫,不需要学习完Python所有的语法知识。但下面这几个点你必须得掌握:
Python判断语句和循环语句;
常用数据结构:列表、元组、集合、字典、函数;
文件操作、错误与异常处理。
3、爬虫入门
在一定程度上掌握了Python语法知识后,我们先来学习Python爬虫入门,
主要是两个知识点:
urllib库的使用
正则表达式
好了,学到这儿我们就可以上手爬取豆瓣电影排行榜了;如果你也学会爬虫爬取自己喜欢看的电影,那么你可以直接划到最后!
如果你是准备学习Python或者正在学习,下面这些你应该能用得上:
① Python所有方向的学习路线图,清楚各个方向要学什么东西
② 100多节Python课程视频,涵盖必备基础、爬虫和数据分析
③ 100多个Python实战案例,学习不再是只会理论
④ 华为出品独家Python漫画教程,手机也能学习
⑤历年互联网企业Python面试真题,复习时非常方便
一、Python所有方向的学习路线
Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
二、Python课程视频
我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。
三、Python实战案例
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
四、Python漫画教程用通俗易懂的漫画,来教你学习Python,让你更容易记住,并且不会枯燥乏味。
五、互联网企业面试真题
我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。