爬虫 Introduction

最新推荐文章于 2024-07-23 16:23:28 发布

Ase丶Uzi

最新推荐文章于 2024-07-23 16:23:28 发布

阅读量181

点赞数

分类专栏： Python 文章标签： python

本文链接：https://blog.csdn.net/Aptxuzi/article/details/117256721

版权

3 篇文章 0 订阅

订阅专栏

-----------------------✂--------------------------------------------------✂---------------------------

(￣^￣)ゞ

通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程

-----------------------✂--------------------------------------------------✂---------------------------

(￣^￣)ゞ

抓取互联网上的数据，为我所用，有了大量的数据，就如同有了一个数据银行一样，下一步做的就是如何将这些爬取的数据产品化，商业化。

-----------------------✂--------------------------------------------------✂---------------------------

(￣^￣)ゞ

公开信息丶不违法
窃取后台信息丶违法
干扰被访问网站的正常运营丶违法
抓取到受法律保护的特定类型数据丶违法

(￣^￣)ゞ

时常的优化自己的程序，避免干扰被访向网站的正常运行
爬取到的数据时，审查抓取到的内容，如果发现了涉及到用户隐私及商业机密等敏感内容需要及时停止爬取或传播

-----------------------✂--------------------------------------------------✂---------------------------

(￣^￣)ゞ

抓取系统重要组成部分。抓取的是一整张页面数据

建立在通用爬虫的基础之上，抓取页面中特定的局部内容

检测网站中数据更新的情况，只抓取网站中最新更新出来的数据

-----------------------✂--------------------------------------------------✂---------------------------

(￣^￣)ゞ

丨君子协议丨

规定了网站中哪些数据可以被爬虫爬取，哪些数据不可以被爬取

www.taobao.com
↓
www.taobao.com/robots.txt

-----------------------✂--------------------------------------------------✂---------------------------

关注