1
Python
爬虫入门教程
[Python]
网络爬虫(一):网络爬虫的定义
网络爬虫,即
Web Spider
,是一个很形象的名字。
把互联网比喻成一个蜘蛛网,
那么
Spider
就是在网上爬来爬去的蜘蛛。
网络蜘蛛是通过网页的链接地址来寻找网页的。
从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页
中的其它链接地址,
然后通过这些链接地址寻找下一个网页,
这样一直循环下去,
直到把这
个网站所有的网页都抓取完为止。
如果把整个互联网当成一个网站,
那么网络蜘蛛就可以用这个原理把互
联网上所有的网页都抓取下来。
这样看来,网络爬虫就是一个爬行程序,一个抓取网页的程序。
网络爬虫的基本操作是抓取网页。
那么如何才能随心所欲地获得自己想要的页面?
我们先从
URL
开始。
二、浏览网页的过程
抓取网页的过程其实和读者平时使用
IE
浏览器浏览网页的道理是一样
的。
比如说你在浏览器的地址栏中输入
www.baidu.com
这个地址。
打开网页的过程其实就是浏览器作为一个浏览的“客户端”,向服务器
端发送了
一次请求,把服务器端的文件“抓”到本地,再进行解释、
展现。