-----------------------✂--------------------------------------------------✂---------------------------
What is 爬虫 ?
( ̄^ ̄)ゞ
- 通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程
-----------------------✂--------------------------------------------------✂---------------------------
What it worth?
( ̄^ ̄)ゞ
- 抓取互联网上的数据,为我所用,有了大量的数据,就如同有了一个数据银行一样,下一步做的就是如何将这些爬取的数据产品化,商业化。
-----------------------✂--------------------------------------------------✂---------------------------
爬虫的合法性?
( ̄^ ̄)ゞ
- 公开信息丶不违法
- 窃取后台信息丶违法
- 干扰被访问网站的正常运营丶违法
- 抓取到受法律保护的特定类型数据丶违法
如何避免被抓进橘子?
( ̄^ ̄)ゞ
- 时常的优化自己的程序,避免干扰被访向网站的正常运行
- 爬取到的数据时,审查抓取到的内容,如果发现了涉及到用户隐私及商业机密等敏感内容需要及时停止爬取或传播
-----------------------✂--------------------------------------------------✂---------------------------
爬虫的使用场景
( ̄^ ̄)ゞ
- 通用爬虫
抓取系统重要组成部分。抓取的是一整张页面数据
- 聚焦爬虫
建立在通用爬虫的基础之上,抓取页面中特定的局部内容
- 增量式爬虫
检测网站中数据更新的情况,只抓取网站中最新更新出来的数据
-----------------------✂--------------------------------------------------✂---------------------------
robots协议 / robots.txt 协议
( ̄^ ̄)ゞ
丨君子协议丨
- 规定了网站中哪些数据可以被爬虫爬取,哪些数据不可以被爬取
- 如何查看协议
www.taobao.com
↓
www.taobao.com/robots.txt
-----------------------✂--------------------------------------------------✂---------------------------