爬虫是 模拟用户在浏览器或者App应用上的操作,把操作的过程,实现自动化的过程。
实现自动化的过程分为四个阶段:
1、查找域名所对应的IP地址。
2、浏览器首先访问的是DNS(Domain Name System,域名系统),dns的主要工作就是把域名转换成相应的IP地址向IP对应的服务器发送请求。
3、服务器响应请求,返回网页内容。
4、浏览器显示网页内容。
总结:网络爬虫要做的,简单来说,就是实现浏览器的功能。通过指定url,直接返回给用户所需要的数据, 而不需要一步步人工去操纵浏览器获取。