利用Spark mllib识别点阵文本

最新推荐文章于 2023-11-29 16:41:06 发布

白乔

最新推荐文章于 2023-11-29 16:41:06 发布

阅读量1.6k

点赞数

分类专栏：源码故事文章标签：文字识别 spark 图片机器学习

本文链接：https://blog.csdn.net/bluejoe2000/article/details/78049680

版权

这篇博客介绍了如何利用Spark的mllib库进行点阵文本识别。首先，作者准备了手写字体并生成图片，然后进行图片切割、二值化处理。接着，将处理后的点阵数据保存为文本文件。最后，在Spark Shell中使用LogisticRegressionWithLBFGS算法进行识别，并展示了识别结果。

摘要由CSDN通过智能技术生成

Step 1

准备手写字体，生成图片；
总共写了10个字：你、我、他、分、布、式、计、算、框、架，每个写了10遍
然后写了5个待识别的字：你、我、好、世、界、框、架

图片如下（手机上写的，字丑见谅！）
这里写图片描述

Step 2

切割图片（抠图），对齐大小至64*64，输出二值化（0-1）点阵，参考了网上的部分代码，java源码如下：

import java.awt.Color;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.HashMap;

import javax.imageio.ImageIO;

public class ImageTest
{
   
    static int NORMAL_WIDTH = 64;
    static int NORMAL_HEIGHT = 64;
    static String FILE_DIR = "/Users/bluejoe/testdata/pics";

    public static BufferedImage validateArea(File file) throws IOException
    {
        BufferedImage bi = ImageIO.read(file);
        // 获取当前图片的高,宽,ARGB
        int h = bi.getHeight();
        int w = bi.getWidth();
        int arr[][] = new int[w][h];

        // 获取图片每一像素点的灰度值
        for (int i = 0; i < w; i++)
        {
            for (int j = 0; j < h; j++)
            {
                // getRGB()返回默认的RGB颜色模型(十进制)
                arr[i][j] = getImageRgb(bi.getRGB(i, j));// 该点的灰度值
            }

        }

        int left = w - 1, top = h - 1, right = 0, bottom = 0;

        int FZ = 130;
        for (