最新爬虫第一课

本文介绍了爬虫的基本概念,包括其合法抓取公开数据的要求,以及Python爬虫如何使用网络请求库、数据解析和存储技术。着重讲述了爬虫与web后端的关系,并推荐了Python爬虫相关的技术库。同时,强调了系统化学习和IT社区的价值。
摘要由CSDN通过智能技术生成

(一) 什么是爬虫

============================================================================

1.1 爬虫的概念

爬虫用于爬取数据,又称为数据采集程序。

爬虫的数据来源于网络,而网络的数据可以有web服务器,数据库服务器云存储等等来提供。

注:利用爬虫去爬取数据当然要是合法的啦,比如你要爬取的数据必须是公开的而且是非盈利的。

1.2. python的爬虫

使用python编写的爬虫脚本(程序)可以完成定时,定量,指定目标(web站点)的数据爬取。主要使用多(单)线程/进程,网络请求库,数据解析,数据存储,任务调度等相关技术。

python爬虫工程师可以完成接口测试,功能性测试和集成测试。

(二 )爬虫与web后端服务之间的关系


爬虫使用网络请求库,相当于客户端请求,web后端服务器根据请求响应数据。(如下图)

在这里插入图片描述

爬虫即向web服务器发起HTTP请求,正确的接受响应数据,然后根据数据的类型(Content-Type)来进行数据解析和保存。

爬虫程序在发送请求前需要伪造浏览器(User-Agent指定请求头),然后再向服务器发起请求。

(三)Python爬虫技术的相关库


网络请求:

  • urllib

  • requests

  • selenium(UI自动测试,动态js渲染)

  • appium(手机app的爬虫或UI测试)

数据解析:

  • re正则

  • xpath

  • bs4

  • json

数据存储:

  • pymysql

  • mongodb

  • elasticsearch

现在能在网上找到很多很多的学习资源,有免费的也有收费的,当我拿到1套比较全的学习资源之前,我并没着急去看第1节,我而是去审视这套资源是否值得学习,有时候也会去问一些学长的意见,如果可以之后,我会对这套学习资源做1个学习计划,我的学习计划主要包括规划图和学习进度表。

分享给大家这份我薅到的免费视频资料,质量还不错,大家可以跟着学习

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里无偿获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 4
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值