Python
人间最得意
这个作者很懒,什么都没留下…
展开
-
一些网站基础的反爬虫机制以及应对方法
为什么要做反爬 当我们肆无忌惮的抓取网站内容的时候(首先,我不建议大家肆无忌惮的抓取),会对目标网站造成相当大的压力 一些网站需要的是真实用户的反馈信息,而爬虫恰恰干扰了网站真实信息的获取 网站部分隐私内容是不希望被人大批量抓取的 防止竞争对手抓取信息盗用或者分析 反爬机制真的可以阻止爬虫吗? 答案是否定的,可以说先有的爬虫,再有的反爬,接着反反爬,不要觉得太过于高大上,其实只是见招拆招...原创 2020-04-09 18:12:45 · 818 阅读 · 0 评论 -
python该如何入门?为什么选择python?心态篇
最近上班好无聊哦 自从疫情结束来上班后,工作比去年少了很多,同事也有几个离职了; 再呆下去估计我这个号就废了,所以我觉得尝试写几篇文章,研究一下技术; 刚开始可能生涩,希望大家不要介意。 不过说实在的,我能有什么技术呢,我是一个爬虫工程师,也就是大家所说的,抓数据的。语言呢,当然是python了。 其实在csdn这个平台上看到好多的大佬写的基础教程都挺不错,不管自己看懂看不懂的,不明觉...原创 2020-04-09 15:33:17 · 151 阅读 · 0 评论 -
Python + (京东)JD评论爬取
今天闲来无事,打开jd 想看看抓取规则是不一样 刚开始还好,慢慢的 咦 单独拿出评论的js打开 咦 咦 咦 这样 : 响应 200 没错呀 看了一会 哦 原来是有个地方出了问题 ~ 大意大意 ...原创 2019-05-13 11:52:42 · 513 阅读 · 0 评论 -
python关于极验滑块思路
selenium 基本操作, canvas 直接js下载验证图片 ,对比像素值, 拼接图片,对比像素值 移动 说穿了就以上这些,不过有一些之前没接触的东西 有些浪费时间 ...原创 2019-05-28 11:33:40 · 442 阅读 · 1 评论 -
58字体加密解决思路
加密思路 关于字体加密,其实是将一种特定的字体库来代替浏览器本身的字体库显示的过程 58字体库加密方式 58同城中,无论是简历中的字体加密,还是房产信息中的加密都是有迹可循的;正如我们所知,加密的字体数量一般都不会太大且会随访问请求而变化,也就是说 ,字体加密的字体库每次都是变化的,我们需要在爬去网页的同时拿取加密的字体库,进行解密, 请求页面 获取加密的字体库 解析字体库,获取字体间的映射关系...原创 2019-06-03 11:07:54 · 1207 阅读 · 3 评论