反爬
little star*
一名程序媛的进届之路
展开
-
【文本混淆反爬】CSS偏移
CSS偏移反爬说明:利用CSS样式将乱序的文字排版为人类正常阅读的顺序,但是爬虫获取到的是乱序的例如:https://flight.qunar.com/site/oneway_list.htm?searchDepartureAirport=%E5%8C%97%E4%BA%AC&searchArrivalAirport=%E4%B8%8A%E6%B5%B7&searchDepartureTime=2020-09-11&searchArrivalTime=2020-09-13&原创 2020-09-10 16:32:24 · 443 阅读 · 1 评论 -
【文本混淆反爬虫】图片伪装
图片伪装反爬说明:网站将关键信息变成图片,以达到使爬虫爬取不到想要的数据例如:https://www.gxrc.com/company/1085868 的招聘联系电话,为图片格式解决办法:使用光学字符识别技术从图片中提取文字步骤:1、向目标网站发起网络请求;2、使用xpath从响应正文提取图片url,并拼接;3、向图片发起网络请求;4、从响应正文中提取图片内容,并使用光学字符识别技术(PyTesseract库)从图片中提取文字。import ioimport requestsfrom原创 2020-09-08 18:13:53 · 584 阅读 · 0 评论