python网页抓取与按键精灵原理一样吗_按键精灵等以GUI接口为基础的程序在爬虫界的地位是怎样的?...

我是题主,针对其他答主的回答我继续补充一下题目,我的知乎没法在回答里评论了,我家浏览器应该坏了。

普通python爬虫只需要引用一个http的分析包就行了。如果一个爬虫需要获取ajax信息,那就需要程序引用一个支持js的环境了。而按键精灵可以看做是引用的dwm,没有通过内核接口与浏览器产生信息交互,而通过浏览器程序的GUI接口与之产生交互。原则上两者是相通的,GUI只是充当了中间件,无论内核接口多么复杂或简易,都统一转变为鼠标点击、按键响应与显存遍历,无非就是数学中常见的直角坐标转化为球面座标而已,得到的结果必然是相同的,不同的就是有些方程在直角坐标系下无法求解而球面座标下易解,也就是说有些东西你没有做到爬虫大师级你就求不出来,但转化为按键精灵之后,菜鸟级也可以做出来大师能做出来的东西了。举个例子,大师需要仿造浏览器标签,充分将自己程序伪装成浏览器,什么head,什么agent,听都听不懂的东西,大师都要熟悉,都得亲自测试好用了。菜鸟就用按键精灵就行了,首先网站是给人而不是给robot用的,网站再怎么反爬虫,也不能把人给反了,只要人能用鼠标键盘做的,按键精灵都可以模拟出来。这样的爬虫,可能初期会有反爬虫策略应付一下,但到了后期,按键精灵爬虫将充分利用自己跟人类的操作完全一样的优势,甚至让爬虫搭上深度学习顺风车,开发AI精灵爬虫, 教给他页面排版下哪里的数据有用,自己学着从网页中获取数据,而且所有数据都通过OCR获取,那将是反爬虫的末日。

回到按键精灵上来,对于服务器布置问题,这就需要有一定的操作系统知识了。按键精灵可以通过与虚拟机+浏览器+按键精灵软件封装在一起的方式实现多线程处理。无非就是多消耗一些内存,128G的内存空间,也没i7 6代CPU贵。安装一系列win7阉割版的虚拟机就可以了。这么大的空间能跑60个线程的按键精灵爬虫,按理说够用了。自己用nodejs建一个服务器,让自己的爬虫在任务完成以后前来领取新任务【都是自己人就不用设置反爬虫门槛了,这样做很爽,不要忘记设置自己的域名为不通过代理的白名单】,让爬虫将自己的任务都提交给服务器,服务器可以用python连数据库进行内容组合,生成雇主需要的材料。同时python可以通过分析新的数据生成新的爬虫任务,通过nodejs后台分发,而与此同时,按键精灵则没有任务的时候就等着10秒刷一次任务【刷自己的网站就不需要浏览器参与了,直接用vbs内置网络访问接口就行】,领取到了任务就做任务。轻量级的爬虫任务就不用搭服务器了。专业爬虫制作者自己搭爬虫任务分发系统就好了。

有关浏览器崩了的问题,如果崩溃,按键精灵就无法识别,然后自动进入状态重置程序,比如执行cmd文件,这个cmd写好了如何重置系统,多次重置无法解决问题则重启,多次重启无果则报警,以便节约宝贵的人力。

当然了,都到这个程度了,按键精灵应该已经使用付费版了,也就是你的爬虫目前正在以.exe形式开机自动运行着,这将带来很大便利。

另外,为什么我说的是按键精灵,而不是其他的工具,就是因为按键精灵已经做好了我想要的任何功能,价钱也不贵,没有必要从底层重新造轮子了,自己写鼠标操作、找图操作等驱动也可以,但这是要转行做C++的节奏?AHK不知是否可行,没用过。如果你的爬虫价值足够高,那你自己花钱找人外包一个底层驱动C++模块也可以啊,爬虫就可以扩充到任意语言环境下了,甚至linux、mac都可以用。

其他:

我发现有人爬虫里写了个这个东西完成页面交互

post_url ='http://www.zhihu.com/login/phone_num'

postdata = {

'_xsrf': get_xsrf(),

'password': secret,

'remember_me': 'true',

'phone_num': account,

}

其中secret是密码变量

但实际上,很多网站并不是直接传输密码的,而是传输加密后的密码,而加密算法却都用js混淆加密技术让你无法分析,这种情况下还是只能采用激活页面内js的方法,比如模拟js环境设置value并模拟click事件,或者识图找到输入框,输入文字,然后单击提交按钮

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值