最近,国家依法查处了部分编写爬虫程序,盗取其他公司数据的不良企业。一时间风声鹤唳,关于爬虫程序是否违法的讨论遍布程序员圈子。那么到底编写爬虫程序是否违法呢?
其爬虫下载数据,一般而言都不违法,因为爬虫爬取的数据同行也是网站上用户打开页面能够看到的数据,但是如果符合下列条件的网站进行强行数据采集时,会具有法律风险。
- 采集的站点有声明禁止爬虫采集时。
2. 网站通过Robots协议拒绝采集时。
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol)。网站通过Robots协议告诉爬虫哪些页面可以抓取,哪些页面不能抓取。如果想查看一个网站的Robots协议,可以打开位于网站根目录下的robots.txt文件即可,例如:https://www.jd.com/robots.txt。
如果因为爬虫的问题产生官司,通常如果对方能够举证你的爬虫有破坏动产(如服务器)的行为,那么基本上打官司你会败诉并要求做出赔偿。
爬虫二十问
以下是业界某位大神关于爬虫相关问题的回答。
- 非爬虫方向的技术转行做爬虫是否可行?
答:可行,而且有一定的基础会很容易上手,至于深入的部分就看自己了。
2. 非技术转行做爬虫是否可行?