爬虫技术总结
爬虫是一种可以从网络上批量将数据下载到本地的一种程序。说白一点就是从网络上搞数据的程序。为什么要做这种程序呢?因为手动太累。程序一般是模拟手动操作,那么如果我们要写程序,要怎么去爬取这些数据呢?
首先一般手动从网络上下载一张图片要进行以下步骤:
1.首先进入网站,找到图片
2.右键将图片另存为
那么浏览器要加载一张图片要经过那些步骤呢?
1.程序员通过html和js链接一张图片到网页上
2.发布网页(使网页在用户电脑上)可访问
所以爬虫要做的便是从一堆js里找到这张图片的地址,然后访问这张图片,将这张图片以图片的格式下载到本地。
爬虫可以用的三方库:python的request,BeautifulSoup等,node js的request等,c#的HtmlAgilityPack等
反爬虫的一些策略与爬虫的一些对策:
1.Headers的UserAgent检测–勤换UserAgent
2.IP封锁–加代理
3.请求频率检测-降低请求频率
4.Cookie限制-绕过Cookie限制
5.验证码限制–打码平台或OCR技术
6.动态页面-模拟浏览器,调用浏览器内核
示例:https://github.com/asasascao/52guzhuangSpider