那么怎么判断爬虫是不是违法呢?关于爬虫是否非法其实没有很明确的说法,一直都是中立的态度。爬虫是一种技术,技术本身没有违法的。但是你使用这种技术去爬取不正当的信息、有版权的图片等用于商用,那么你就是违法了。其实我们只要在使用爬虫技术的时候不要去爬个人隐私信息,不要爬取有版权的图片,最重要的是信息不要用于商业化的行为,爬虫不得干扰网站的正常运行等。
说了这么多其实就是要大家谨慎使用这一项技术。
怎么爬
我查了一下资料,使用Node做爬虫的话其实有很多的途径,很多人比较喜欢的就是使用cheerio以及request来爬取。但是我也发现了一个比较好用的工具就是puppeteer,这一项技术是谷歌官方提供的一款工具。它其实就是把人来做的事情变成了调用接口来实现
。看了一下官方的文档,主要可以实现以下的功能:puppeteer官方文档
-
生成页面的屏幕截图和PDF。
-
爬取SPA(单页应用程序)并生成预渲染的内容(即“ SSR”(服务器端渲染))。
-
自动执行表单提交,UI测试,键盘输入等。
-
创建最新的自动化测试环境。使用最新的JavaScript和浏览器功能,直接在最新版本的Chrome中运行测试。
-
捕获站点的时间线跟踪以帮助诊断性能问题。
-
测试Chrome扩展程序。
同时也看了一些同学的评价,觉得这个东西是非常的amazing啊!虽然我还没有深入去了解全部的API,但是也算是懂得大概