初识爬虫【第一课】

第一课:初识爬虫
现在网络发达,数据横飞, 成了一个数据大爆炸的时代,而爬虫呢?简单说来,就是代替人去模拟浏览器进行网页操作。爬虫能够去锁定数据,并去抓取它。那,爬虫,又是怎样去抓取呢?就算抓取了,又如何保证抓取到的数据,就是你想要获取的数据呢?接下来便请听我详细道来。
爬虫抓取的对象,实质上就是一堆数据。数据是什么?数据其实就是你想要找到对象的数据标识,我们为便于称呼,形象的给它取了个名字,端口。比如,当你想要给一个朋友打电话时。这时,你就是要输入对方的手机号码,我们把它称为lP,当你输入后,这时你输入的数据就传到服务端发出请求,当经过“一番确认后.认为可行后,再返回到你的服务器端,这就是数据流。在这过程中还有一番波折.比如在你通迅时,就有一个通讯协议。由国际组织定义的通用的协议TCP/IP协议.所谓协议就是指计算机通信通信网络中两台计算机之间进行通信所必须共同遵守的规定。比如当你输入某人的身份证号,想要查询,并发出请求到对方接收时,在这中间过程,你经过了找对方识、找端口、协议等过程。除此之外,当你在发出前到另一端设备接收后都还有一道工序。思考一下,在这个工程中你如何保证另一端设备能够准确辩识你发出的信息?又如何保证数据在发送过程中,数据不流失?所以这时就要对数据进行封装,说白一点,就是包装袋,免得数据在如今这数据横飞的乱流中被冲击掉了。再详细一点,就必须要引入网络模型这概念。 为什么要说它?一般现在的网络模块分为OSI参考模型和TCP/IP参考模型。
首先,OSI参考模型从上到下划分层次大致为:应用层、表示层、会话层、传输层(TCP层)、网络层(IP层)、数据链路层以及物理层;而另一端设备,也同样分布着相同的层次。而数据从上到下开始封包。而物理层是一端到另一端的数据传输道路。之后,随着技术的发展,TCP/IP 产生,它的层次大致分为:应用层、传输层、网际层、主机至网络层。
在我们爬数据时,我们不可避免地会见到HTTP或HTTPS这样的内容,它又代表什么呢?https=http+ssl,顾名思义,https是在http的基础上加上了ssl保护壳,信息的加密过程就是在SSL中完成的;HTTPS,是以安全为目标的HTTP通道,简单讲是HTTP的安全版,即HTTP下加入SSL层,HTTPS的安全基础是SSL。对于SSL的理解,SSL也是一个协议主要用于web的安全传输协议。
说了这些,对于我们这些热爱爬虫的初学者,就一定要了解爬虫的分类,大体上我们把它分为四类:第一类:通用网络爬虫,例如百度 谷歌 yahu等;第二类聚焦网络爬虫:根据既定的目标有选择地抓取某一特定主题内容;第三类:增量是网络爬虫,大家都知道,现在各软件、各大数据更新速度极快,数据每天都在变化,有的再增加,有的在减少,而增量式是指对下载网页采取增量式的更新和只爬行新产生的或者已经发生变化的网页爬虫;之后再便是第四类: 深层网络爬虫:指那些大部分内容不能通过静态链接获取的、隐藏再搜索表单后的、只有用户提交一些关键词才能获得的web页面,例如:用户登录注册才能访问的页面
讲了这么多了,相信读者对我们爬的数据,这期间会涉及到的一些大体过程有一定了解了,这样我们在获取时,思路便会更加明确清晰。
@希望能帮到想要学习的小伙伴,也希望不足之处,予以提点,感谢观看!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值