python读法爬虫_Python入门-爬虫是什么？

最新推荐文章于 2023-10-11 09:46:16 发布

weixin_39822629

最新推荐文章于 2023-10-11 09:46:16 发布

阅读量168

点赞数

文章标签： python读法爬虫

今天从三个方面讲讲爬虫。首先什么是爬虫？爬虫有什么用？怎么实现爬虫？

一：爬虫的定义

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

二：爬虫可以做什么

知乎上各位大佬都讲过，不再详细讲解。感觉最重要的作用就是信息的获取。信息的时代，有信息资源就有优势。

1）市场分析：电商分析、市场分析等；

2）市场监控：新闻、舆论等等；

3）商机发现：例如前几天的头盔，如果能爬到公安部之前的新闻，可以提早发现。

三：爬虫的实现

1）网址构成

网站一般由域名（如HTTPS：//http://www.tmall.com）+页面构成，并且域名一般不会改变，因此爬虫所做的就是解析域名及各级链接和解析页面内容。

2）网页加载

3）页面请求

在浏览器中输入网址，回车后，会经过下面

1）dns解析，获取ip地址；（建站就是把域名跟服务器ip进行绑定）

2）建立TCP链接，握手；

3）发送HTTP请求报文；

4）服务器接收请求并处理；

5）服务器发送响应报文；

6）断开TCP链接。

4）爬虫框架

1）待爬取的URL；

2）将URL放入队列；

3）取出待抓取的URL，下载并存储进已下载网页库中。此外，将这些URL放入待抓取URL队列，从而进入下一循环；

4）分析已抓取队列中的URL，并且将URL放入待抓取URL队列，从而进入下一循环。

参考

weixin_39822629

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python读法爬虫_Python入门-爬虫是什么？

今天从三个方面讲讲爬虫。首先什么是爬虫？爬虫有什么用？怎么实现爬虫？一：爬虫的定义网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。二：爬虫可以做什么知乎上各位大佬都讲过，不再详细讲解。感觉最重要的作用就是信息的获取。信息的时代，有信息资源就有优势。1）市场分析：电商分析、市场分析等；2）市场监控：新闻、...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。