============================================================================
1.1 爬虫的概念
爬虫用于爬取数据,又称为数据采集程序。
爬虫的数据来源于网络,而网络的数据可以有web服务器,数据库服务器云存储等等来提供。
注:利用爬虫去爬取数据当然要是合法的啦,比如你要爬取的数据必须是公开的而且是非盈利的。
1.2. python的爬虫
使用python编写的爬虫脚本(程序)可以完成定时,定量,指定目标(web站点)的数据爬取。主要使用多(单)线程/进程,网络请求库,数据解析,数据存储,任务调度等相关技术。
python爬虫工程师可以完成接口测试,功能性测试和集成测试。
爬虫使用网络请求库,相当于客户端请求,web后端服务器根据请求响应数据。(如下图)
爬虫即向web服务器发起HTTP请求,正确的接受响应数据,然后根据数据的类型(Content-Type)来进行数据解析和保存。
爬虫程序在发送请求前需要伪造浏览器(User-Agent指定请求头),然后再向服务器发起请求。
网络请求:
-
urllib
-
requests
-
selenium(UI自动测试,动态js渲染)
-
appium(手机app的爬虫或UI测试)
数据解析:
-
re正则
-
xpath
-
bs4
-
json
数据存储:
-
pymysql
-
mongodb
-
elasticsearch
现在能在网上找到很多很多的学习资源,有免费的也有收费的,当我拿到1套比较全的学习资源之前,我并没着急去看第1节,我而是去审视这套资源是否值得学习,有时候也会去问一些学长的意见,如果可以之后,我会对这套学习资源做1个学习计划,我的学习计划主要包括规划图和学习进度表。
分享给大家这份我薅到的免费视频资料,质量还不错,大家可以跟着学习
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!