python
文章平均质量分 89
渔戈
时间会让你越变越好
展开
-
爬虫绕过无限debugger
我们在实践的过程中,经常发现一些网站,刚按F12进入控制台,就会进入一个debugger状态,并且无论你怎么下一步运行,代码永远停留在这个断点的地方。这个就是反爬虫的一个重要手段:无限debugger。一、无限debugger的原因:debugger关键字是用于浏览器调试的,这个关键字在控制台没有打开的时候是不会起到任何暂停作用,但是一旦控制台被打开了,代码将停在debugger关键字所在的地方。再配合setInterval定时器,可以一直停留在某个debugger地方,阻止调试。二、无限debu.原创 2021-11-07 23:22:49 · 24388 阅读 · 0 评论 -
Pycharm配置远程解释器并自动上传代码
Pycharm配置远程解释器一.既然是要配置远程解释器,就得下载Python,这里是基于centos7系统的配置:安装依赖包:# yum -y groupinstall "Development tools"# yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-de原创 2020-10-24 15:43:34 · 20861 阅读 · 1 评论 -
应届生爬虫
应届生爬虫-仅供学习使用今天我们学习的目标网站是应届生我们话不多说,直接进入爬虫学习。经过我们的仔细分析,应届生这个网站是一个静态网站,数据在源码里面都能看到。这个网站没什么难点,不过比较狗的是,应届生的详情页有两种,一不小心就会踩到坑里面去。详情页一:详情页二:既然我们提前知道了这个坑,要解决就简单了,我们只要把两个页面的数据提取语法都写出来,用if进行判读,就可以确保万无一失了。例如提取职位名称: #职位名称 job_name = html.xpath(原创 2020-06-23 20:37:35 · 21233 阅读 · 0 评论 -
拉勾爬虫项目
拉勾爬虫-仅供学习使用今天要进行爬取的网站是拉勾招聘网站。首先,我们要对网站进行分析,经过我们的一翻页面分析,我们找到了数据存储的地方所在,如图:知道了数据所在,我们就开始分析这个页面的链接信息:可以看出,这个是网页是使用post请求的,既然是post请求,就一定有表单数据的,所以我们接着往下面看:这里就是表单数据了。拉勾的关键词和翻页都说由这个表单数据进行控制的,所以我们只要构建好这个表单,拉勾的数据就可以提取到了。不过我们这里拿到的数据只是表面的数据,要想进入到详情页,我们还需要构建详情原创 2020-06-22 11:09:37 · 21791 阅读 · 0 评论