爬虫01-一个简单的爬虫

最新推荐文章于 2022-02-13 15:16:57 发布

qwerLoL123456

最新推荐文章于 2022-02-13 15:16:57 发布

阅读量434

点赞数 2

分类专栏：爬虫

本文链接：https://blog.csdn.net/qwerLoL123456/article/details/82492766

版权

爬虫专栏收录该内容

16 篇文章 1 订阅

订阅专栏

什么是爬虫？

爬虫就是按照一定的规则，自动的抓取互联网信息的程序或者脚本，爬虫分为通用爬虫、聚焦爬虫、增量式爬虫、深度爬虫

下面是一个简单的爬虫

from urllib import request
from chardet import detect
response = request.urlopen('http:www.baidu.com')
html = response.read().decode()
print(html)

爬虫的分类

通用爬虫：抓取页面的html ，主要是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份

聚焦爬虫：在实施网页的抓取时会对内容进行处理筛选，尽量保证值抓取与需求相关的网页信息

增量式爬虫：指在已经爬取了足够数量的网页，分为两种：一种是爬取的数据发生了变化，比如爬取csdn博客的内容，但博主可能改变他写的博客内容，这时候需要再次爬取数据对数据库里的数据进行更新，另一种是爬取的链接发生了变化，比如爬取一个新闻类网站的网页，新闻的信息变化的频率是非常快的，为了保持新闻的时效性，必须每个一段时间就再次爬取

深层爬虫：我们爬取一个网页时，网页中有很多的超链接，我们可以获取到超链接，对它继续进行爬取，这就是增量式爬虫

qwerLoL123456

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫01-一个简单的爬虫

什么是爬虫？爬虫就是按照一定的规则，自动的抓取互联网信息的程序或者脚本，爬虫分为通用爬虫、聚焦爬虫、增量式爬虫、深度爬虫下面是一个简单的爬虫from urllib import requestfrom chardet import detectresponse = request.urlopen('http:www.baidu.com')html = response.read...
复制链接

扫一扫