python读法爬虫_Python入门-爬虫是什么?

今天从三个方面讲讲爬虫。首先什么是爬虫?爬虫有什么用?怎么实现爬虫?

一:爬虫的定义

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

二:爬虫可以做什么

知乎上各位大佬都讲过,不再详细讲解。感觉最重要的作用就是信息的获取。信息的时代,有信息资源就有优势。

1)市场分析:电商分析、市场分析等;

2)市场监控:新闻、舆论等等;

3)商机发现:例如前几天的头盔,如果能爬到公安部之前的新闻,可以提早发现。

三:爬虫的实现

1)网址构成

网站一般由域名(如HTTPS://http://www.tmall.com)+页面构成,并且域名一般不会改变,因此爬虫所做的就是解析域名及各级链接和解析页面内容。

2)网页加载

3)页面请求

在浏览器中输入网址,回车后,会经过下面

1)dns解析,获取ip地址;(建站就是把域名跟服务器ip进行绑定)

2)建立TCP链接,握手;

3)发送HTTP请求报文;

4)服务器接收请求并处理;

5)服务器发送响应报文;

6)断开TCP链接。

4)爬虫框架

1)待爬取的URL;

2)将URL放入队列;

3)取出待抓取的URL,下载并存储进已下载网页库中。此外,将这些URL放入待抓取URL队列,从而进入下一循环;

4)分析已抓取队列中的URL,并且将URL放入待抓取URL队列,从而进入下一循环。

参考

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值