Python爬虫从入门到精通:（1）爬虫基础简介_Python涛哥

最新推荐文章于 2024-07-28 15:46:11 发布

Python涛哥

最新推荐文章于 2024-07-28 15:46:11 发布

阅读量344

点赞数 2

分类专栏： python 爬虫文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tao5090694/article/details/120370874

版权

python 同时被 2 个专栏收录

48 篇文章 14 订阅

订阅专栏

45 篇文章 18 订阅

订阅专栏

第一章，爬虫基础简介

爬虫概述

前戏

你是否在夜深人静的时候，想看一些会让你更睡不着的图片…
你是否在考试或者面试前夕，想看一些具有针对性的题目和面试题…
你是否想在杂乱的网络世界获取你想要的数据…

爬虫的价值

实际应用
就业

什么是爬虫

通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程

关键词抽取：
- 模拟：浏览器就是一个纯天然最原始的一个爬虫工具
- 抓取：
  - 抓取一整张页面源码数据
  - 抓取一整张页面中的局部数据

爬虫的分类

通用爬虫：
- 要求我们爬取一整张的页面源码数据
聚焦爬虫
- 要求爬取一张页面中的局部的数据
  - 聚焦爬虫一定是建立在通用爬虫基础之上
增量式爬虫：
- 用来检测网站数据更新的情况，以便爬取到网站最新更新出来的数据。
分布式爬虫：
- 提高爬虫效率的终极武器。

反爬、反反爬

反爬机制

是作用到门户网站中。如果网站不想让爬虫轻易爬取到数据，它可以制定相关的机制或者措施阻止爬虫程序爬取数据。

反反爬策略

是作用在爬虫程序中。我们爬虫可以制定相关的策略破击反爬机制从而爬取到相关的数据。

第一种反爬机制

robots协议：防君子不防小人
- 是一个纯文本的协议，协议中规定了该网站中哪些数据可以被哪些爬虫爬起，哪些不可以被爬取。
破解：
- 你自己主观性的不遵从该协议即可。

爬虫究竟是合法还是违法？

在法律上是不被禁止
具有违法风险
善意爬虫恶意爬虫

爬虫带来的风险可以提现下如下两个方面

爬虫干扰了被访问网站的正常运营
爬虫抓取了收到法律保护的特定类型的数据或信息

如何在使用编写爬虫的过程中避免进入局子的厄运呢？

时常的优化自己的程序，避免干扰被访问网站的正常运行
在使用，传播爬取到的数据时，审查抓取到的内容，如果发现了涉及到用户隐私、商业机密等敏感内容，需要及时停止爬取或传播

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫从入门到精通:（1）爬虫基础简介_Python涛哥

第一章，爬虫基础简介爬虫概述前戏你是否在夜深人静的时候，想看一些会让你更睡不着的图片…你是否在考试或者面试前夕，想看一些具有针对性的题目和面试题…你是否想在杂乱的网络世界获取你想要的数据…爬虫的价值实际应用就业什么是爬虫通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程关键词抽取：模拟：浏览器就是一个纯天然最原始的一个爬虫工具抓取：抓取一整张页面源码数据抓取一整张页面中的局部数据爬虫的分类通用爬虫：要求我们爬取一整张的页面源码数据
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。