爬虫的简单介绍

最新推荐文章于 2024-04-28 21:43:22 发布

yaqinweiliang

最新推荐文章于 2024-04-28 21:43:22 发布

阅读量204

点赞数

分类专栏：爬虫

爬虫专栏收录该内容

35 篇文章 1 订阅

订阅专栏

一、爬虫就是程序员写程序然后到网上抓取数据的过程

二、爬虫一般可以分为通用爬虫和聚焦爬虫

1、通用爬虫比如：百度、360、搜狐、谷歌等

通用的爬虫抓取新网站一般有如下几种方式：

（1）主动提交url

（2）设置友情链接

（3）百度会和DNS服务商进行合作，抓取新的网站

使用的原理：

（1）抓取网页

（2）采集数据

（3）数据处理

（4）提供检索服务

2、聚焦爬虫

根据特定的需求，进行抓取指定的数据。

主要是实现代替浏览器上网，爬取的步骤：

（1）获取一个url

（2）编写程序，模拟浏览器去访问url

（3）解析网页内容，进行数据的提取

抓取的网页特点：
               （1）网页都有自己唯一的url
               （2）网页内容都是html结构的
               （3）使用的都是http、https协议

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫的简单介绍

一、爬虫就是程序员写程序然后到网上抓取数据的过程二、爬虫一般可以分为通用爬虫和聚焦爬虫1、通用爬虫比如：百度、360、搜狐、谷歌等通用的爬虫抓取新网站一般有如下几种方式：（1）主动提交url（2）设置友情链接（3）百度会和DNS服务商进行合作，抓取新的网站使用的原理：（1）抓取网页（2）采集数据（3）数据处理（4）提供检索服务2、聚焦爬虫根据特定的需求，进行抓取指定的数据。主要是实现代替浏览器上网...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。