爬虫是什么
首先我们要知道网络爬虫到底什么
网络爬虫是指一种按照一定的规则自动抓取网络信息的程序或者脚本,简单来说网络爬虫就是根据一定的算法利用某一种编程语言进行开发(c语言,python,java)主要通过URL实现对数据的抓取和挖掘的程序代码
爬虫能做什么
1.爬取数据为研究提供数据支撑
2.采集数据为人工智能训练提供资源
3.舆情监控
4.数据分析
5.窃取后台数据
6.恶意攻击
爬虫注意事项
通过上面爬虫作用可以看出来爬虫技术本身是没有任何问题的,所谓的技术无罪,犯罪的只是使用它的人,爬虫开发者以及企业boss的道德才是爬虫技术避免触犯法律的根本
1.爬虫程序禁止爬取国家机密信息
2.禁止窃取个人隐私信息
3.收集数据时不应占用被爬取者太多资源
4.应遵守robots协议
5.应遵守国家法律法规