1.直接上代码结论
import javax.imageio.ImageIO; import java.awt.*; import java.awt.image.BufferedImage; import java.io.ByteArrayInputStream; import java.io.ByteArrayOutputStream; import java.io.IOException; import java.io.InputStream; import java.net.URL; public class SlideDistanceCalculator { public static void main(String[] args) { // 这个是缺口图片的地址 String urlString = "https://p16-rc-captcha-sg.ibyteimg.com/tos-alisg-i-749px8mig0-sg/273f160eeef34cfdbe232da3c3a90690~tplv-749px8mig0-2.jpeg"; // 其中的 340跟212 这个值具体填多少,要看你爬的那个网站的验证码的高度跟宽度 // 这个4 是偏移量,因为每次算出来的结果跟我要爬的那个网站的距离总是多了 4个px 所以我在这就减了4PX changeImageGray(convertImageToByteArray(urlString,340,212),4); } /** * 获取移动距离 * @param imgByte 图片字节数组 * @param offset 偏移量 * @return */ public static int changeImageGray(byte[] imgByte,Integer offset) { try { // 读取图片 BufferedImage image = ImageIO.read(new ByteArrayInputStream(imgByte)); // 获取图片的宽度和高度 int width = image.getWidth(); int height = image.getHeight(); int[][] lightArray = new int[height][width]; // 遍历图片的像素点,将其转换为黑白 for (int y = 0; y < height; y++) { for (int x = 0; x < width; x++) { // 获取像素点的颜色 Color color = new Color(image.getRGB(x, y)); // 计算灰度值 int gray = Double.valueOf((color.getRed() * 0.2126 + color.getGreen() * 0.7152 + color.getBlue() * 0.0722)).intValue(); // 将像素点的颜色设置为非黑即白 if (gray > 100) { gray = 255; } else { gray = 0; } lightArray[y][x] = gray; } } int maxChangeCount = 0; int index = 0; for (int w = 1; w < width; w++) { int changeCount = 0; for (int h = 0; h < height; h++) { if (lightArray[h][w] == 0 && lightArray[h][w - 1] == 255) { changeCount++; } } if (changeCount > maxChangeCount) { maxChangeCount = changeCount; index = w; } } System.out.println(index - (offset == null ? 0 :offset)); return index - (offset == null ? 0 :offset); } catch (Exception e) { e.printStackTrace(); } return 0; } /** * 返回图片的字节数组 * @param imageUrl 图片url地址 * @param width 图片宽度 * @param height 图片高度 */ public static byte[] convertImageToByteArray(String imageUrl, int width, int height) { try { // 从 URL 加载图片 URL url = new URL(imageUrl); InputStream inputStream = url.openStream(); // 读取图片数据到 BufferedImage BufferedImage originalImage = ImageIO.read(inputStream); // 创建目标尺寸的 BufferedImage BufferedImage resizedImage = new BufferedImage(width, height, BufferedImage.TYPE_INT_RGB); // 使用 Graphics2D 进行图片缩放 Graphics2D graphics2D = resizedImage.createGraphics(); graphics2D.drawImage(originalImage, 0, 0, width, height, null); graphics2D.dispose(); // 将 BufferedImage 转换为字节数组 ByteArrayOutputStream outputStream = new ByteArrayOutputStream(); ImageIO.write(resizedImage, "jpg", outputStream); // 关闭输入流和输出流 inputStream.close(); outputStream.close(); // 返回字节数组 return outputStream.toByteArray(); } catch (IOException e) { e.printStackTrace(); } return null; } }
2.示例
我是爬国外抖音的数据,经常会出现滑动验证码,就比如说,我要计算这个图片的缺口距离:
然后上面的代码算出来的距离:
结果只是相差了1px,但这个误差是可以接受的
代码上面 340,212 是这个网页的验证码的div的高度跟宽带,例如这个的验证码:
那就要变成 260 跟 160 了,然后代码里面的 “4” 这个值是由你们自己调的,多练几次,这个值就很好确认了
3.原理
如何破解滑动验证码? | 未读代码
这篇文章要梯子才能访问
4.爬虫思路
有人会说如果算出来的结果跟实际上移动的距离差几PX怎么办?
我的解决方案是:在通过代码来定位要滑动的div来进行滑动验证,如果验证不正确,那就监听这个网页是否发起获取新的验证图片的请求,如果有,那就在监听器里面重复尝试破解,总会有成功的