Python3爬虫学习笔记1.0——什么是爬虫？

最新推荐文章于 2024-04-22 19:57:04 发布

王凯盛

最新推荐文章于 2024-04-22 19:57:04 发布

阅读量993

点赞数

分类专栏： Python爬虫文章标签： python 爬虫自动化网络

本文链接：https://blog.csdn.net/sinat_31211873/article/details/52085162

版权

Python爬虫专栏收录该内容

5 篇文章 0 订阅

订阅专栏

欢迎捧场，上一篇文章我介绍了一些自己在爬坑过程中常用的学习资料，完成了上篇的内容，我们就会对Python有一个大致的了解；即使不了解也没关系，后期用到的时候在回去巩固，”学而时习之“，多看几次，多用几次，基本就掌握了。

1.爬虫定义

我们来思考一个问题，什么是爬虫？说一下我对爬虫的理解。
理解爬虫之前，我们思考一下网络是一种什么样式的存在。爬虫就是游离在这些网络之间的一个自动化程序，并且能够完成对网络地浏览，自动采集网络中所有访问到的内容，从而在网络中得到你需要的信息。

网络爬虫始于一张被称作种子的统一资源地址（URLs）列表。当网络爬虫访问这些统一资源定位器时，它们会甄别出页面上所有的超链接，并将它们写入一张＂待访列表＂，即所谓＂爬行疆域＂（crawl frontier）。此疆域上的统一资源地址将被按照一套策略循环访问。如果爬虫在他执行的过程中复制归档和保存网站上的信息，这些档案通常储存，使他们可以被查看。阅读和浏览他们的网站上实时更新的信息，并保存为网站的“快照”。大容量的体积意味着网络爬虫只能在给定时间内下载有限数量的网页，所以要优先考虑其下载。高变化率意味着网页可能已经被更新或者删除。一些被服务器端软件生成的URLs（统一资源定位符）也使得网络爬虫很难避免检索到重复内容。

网络蜘蛛（爬虫）-维基百科
顺便说一句：Google是世界上最大的爬虫。
需要注意的一点是，当你需要用爬虫完成一件事情的时候，“用爬虫”，这三个字只能作为一个定语使用。即，只有当你在不用爬虫就有权限进行操作的时候，才能考虑到使用爬虫来完成；爬虫只是一个自动化的工具。
例如：用爬虫可以把目标网站上所有的图片扒下来，但是如果你女神对设置了权限，不允许你访问她的QQ空间，这个时候爬虫也是爱莫能助。

2.URLs

爬虫的定义中提到：

网络爬虫始于一张被称作种子的统一资源地址（URLs）列表。

那么URL又是什么呢？
URL，统一资源定位符，通常我们表达为网址，如：www.baidu.com，但这不是一个标准的格式，统一资源定位符的标准格式如下：

    https://www.baidu.com/
    协议类型://服务器地址（必要时需加上端口号）/路径/文件名

大多数网页浏览器不要求用户输入网页中“http://”的部分,因为大多数都是用到的http协议。
爬虫会开始于一个URL，然后跟你设置的深度和爬取数量，接着寻找该页面中的URL，用于下次访问，以此类推。如果是数据结构基础的同学应该能够看出来，爬虫程序实际上完成的是一个BFS，“广度优先遍历”。

现在已经完成了对“什么是爬虫？”的初步了解，下一篇文章就已经开始要在网络上开始爬了，你准备好了吗？

从这篇文章开始，以后写东西都用Markdown了，感谢黄日辰同学的友情提示，么么哒。

谢谢捧场！

王凯盛

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录