Python爬虫总结(CSS,Xpath,JsonLoad;静态网页,JS加载,Ajax异步请求)
前言
随着人类社会的高速发展,数据对各行各业的重要性,愈加重要。爬虫,也称为数据采集器,是指通过程序设计,机械化地对网络上的数据,进行批量爬取,以代替低效的人工获取信息的手段。
1. 道德法律问题
爬虫目前在法律上尚属灰色地段,但爬别的网站用于自己的商业化用途也可能存在着法律风险。非法抓取使用“新浪微博”用户信息被判赔200万元,这是国内的一条因爬虫被判败诉的新闻。所以各商业公司还是悠着点,特别是涉及隐私数据。
大型的网站一般都会有robot.txt,这算是与爬虫者的一个协议。只要在robot.txt允许.
原创
2020-05-22 22:12:10 ·
1369 阅读 ·
0 评论