OpenCV自动滑块验证(Java版) 爬与防爬就是一场“道高一尺,魔高一丈”的拉力赛,双方都在见招拆招。时至今日,较为常见的防爬手段有手机短信验证、滑块验证、按顺序点击图片验证等。本文主要介绍滑块验证的应对之法。
网页正文提取算法:行块分布算法 & Readability 爬取百度、搜狗、必应等搜索引擎时,详情页的正文因来源多样而无法简单通过通用的规则来匹配,这就需要相关的提取算法。本文在此介绍两种网页正文提取算法:行块分布算法 & Readability。
MySQL中的触发器Trigger用法解析 这篇文章主要介绍了MySQL中的触发器trigger用法解析,触发器是由事件来触发某个操作,这些事件包括 INSERT、UPDATE、DELETE事件,事件就是指用户的动作或者触发某项行为。
LSTM预测股票走势的原理 LSTM算法是一种重要的目前使用最多的时间序列算法,是一种特殊的RNN(Recurrent Neural Network,循环神经网络),能够学习长期的依赖关系。主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说,就是相比普通的RNN,LSTM能够在更长的序列中有更好的表现。
一种手机短信验证码登录平台的解决方案 爬取数据时,请求需要带上Cookie,这是很常见的一种防爬手段。更新Cookie,常用的方法就是Selenium模拟输入用户名和密码;偶尔会遇到图片验证码,现在打码平台很多且技术也很成熟,这个已经不成问题。所谓“道高一尺,魔高一丈”,频繁访问且不断切换IP的账号,平台考虑减少误杀的情况,不可能直接封号,那就只能在登录上设置障碍;正常账号输入手机短信验证码就应运而出了。
Kettle 浅入浅出 Kettle(水壶)是一款国外开源的 ETL 工具,现在已经更名为 PDI,Pentaho Data Integration-Pentaho 的缩写,由纯 java 编写,可以在 Window、Linux、Unix 上运行,绿色无需安装,数据抽取高效稳定。它可以处理各种异构数据库中的数据,并且提供了可视化图形界面的方式进行操作,让你思路主要关注在如果处理数据上,而不是如何实现处理的过程。
基于APP数据爬取的运行环境 数据爬取本就是“道高一尺,魔高一丈”;越往后,爬取越接近于真实,真实包含了真实的运行环境(不再是简单地伪造请求、User-Agent和Cookie等)和真实的操作流程。本文对APP的运行环境做了简单梳理以供参考。
浅入浅出Java锁 做分布式爬虫时,结合已有的架构,直接对某网站的详情页进行了爬取;尴尬的是,某网站需先采集列表页,之后才能采集详情页;这种防爬手段使用了用户行为监控,行为异常的访问直接就给屏蔽了。对于这种情况,既要满足分布式的性能要求,又要模拟合理的用户行为,程序中就要对列表页的访问加锁。
MySQL 视图 浅入浅出 视图(view)是一个虚拟表,非真实存在,其本质是根据SQL语句获取动态的数据集,并为其命名,用户使用时只需使用视图名称即可获取结果集,并可以将其当作表来使用。数据库中只存放了视图的定义,而并没有存放视图中的数据。这些数据存放在原来的表中。使用视图查询数据时,数据库系统会从原来的表中取出对应的数据。因此,视图中的数据是依赖于原来的表中的数据的。一旦表中的数据发生改变,显示在视图中的数据也会发生改变。