利用Spark mllib识别点阵文本

这篇博客介绍了如何利用Spark的mllib库进行点阵文本识别。首先,作者准备了手写字体并生成图片,然后进行图片切割、二值化处理。接着,将处理后的点阵数据保存为文本文件。最后,在Spark Shell中使用LogisticRegressionWithLBFGS算法进行识别,并展示了识别结果。
摘要由CSDN通过智能技术生成

Step 1

准备手写字体,生成图片;
总共写了10个字:你、我、他、分、布、式、计、算、框、架,每个写了10遍
然后写了5个待识别的字:你、我、好、世、界、框、架

图片如下(手机上写的,字丑见谅!)
这里写图片描述

Step 2

切割图片(抠图),对齐大小至64*64,输出二值化(0-1)点阵,参考了网上的部分代码,java源码如下:

import java.awt.Color;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.HashMap;

import javax.imageio.ImageIO;

public class ImageTest
{
   
    static int NORMAL_WIDTH = 64;
    static int NORMAL_HEIGHT = 64;
    static String FILE_DIR = "/Users/bluejoe/testdata/pics";

    public static BufferedImage validateArea(File file) throws IOException
    {
        BufferedImage bi = ImageIO.read(file);
        // 获取当前图片的高,宽,ARGB
        int h = bi.getHeight();
        int w = bi.getWidth();
        int arr[][] = new int[w][h];

        // 获取图片每一像素点的灰度值
        for (int i = 0; i < w; i++)
        {
            for (int j = 0; j < h; j++)
            {
                // getRGB()返回默认的RGB颜色模型(十进制)
                arr[i][j] = getImageRgb(bi.getRGB(i, j));// 该点的灰度值
            }

        }

        int left = w - 1, top = h - 1, right = 0, bottom = 0;

        int FZ = 130;
        for (
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值