![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
ocr
文章平均质量分 54
FeboReigns
这个作者很懒,什么都没留下…
展开
-
创造一个表格编辑距离指标
替换一个cell的操作数包括两部分,一部分是cell大小操作数,另一部分是位置操作数。删除一个cell,需要的操作数为该cell的跨行列之和,插入一个cell也类似。四个数字代表行和列,0 0 0 0 代表从第0行到第0行,从第0列到第0列。行位置操作数,先计算行起点差值与终点差值,两个差值的的最小值。cell的位置操作数是 二者行位置操作数和列位置操作数之和。与字符的编辑距离类似,可以把一个cell当作一个字符,cell大小的操作数是二者跨行列之和的差值,一个table相当于这样的格式。原创 2022-10-29 01:52:00 · 364 阅读 · 0 评论 -
缅甸语字符识别
https://www.nugmyanmar.org/en/[缅甸语]区段所有字符 U+1000-U+109F | Unicode符号库 ✏️ (fuhaoku.net)Myanmar Fonts: Unicode, Zawgyi, Pyi Daung Su Download (myanmarhouse.com.mm)AungMyoKyaw/Myanmar-Unicode-Fonts: Myanmar Unicode Fonts (github.com)http://www.unicode.org/faq原创 2022-10-19 11:15:34 · 1329 阅读 · 0 评论 -
各国Unicode
https://unicode-table.com/cn/search/Character Table (character-table.netlify.app)原创 2022-10-18 15:28:28 · 193 阅读 · 0 评论 -
字符识别数据集构建(1)
我们收集有可能是长句子,中间有tab之类的,要把这些句子拆开,一个单词一个换行符。然后,我们可以规定一个最大的单词长度,如果超过这个距离就丢掉此数据。trdg如果使用背景图会有个问题,如果字的颜色和背景颜色相近他会不产生图片但是会有标签。比如说我做缅甸语可以去找缅甸语的网站,比如政府网站或者字典或者去github找相关的数据。中文和日文是2中的字典所不具备的。参数依次为,字典路径,字典文件名,数据集路径,数据集文件名,清洗后的文件路径和名称。如果不知道字典是什么,可以从刚刚的数据集中生成。原创 2022-09-20 20:29:43 · 550 阅读 · 0 评论 -
TextRecognitionDataGenerator小语种字符串分离解决办法
generate_horizontal_text 函数和 _generate_vertical_text 函数。如果还不行,可以在代码里面添加txt_mask_draw.text 方法中添加 language 参数。看了作者源码后修改之后把问题解决了,作者绘制每一个char而不是整个string。我们可以打开一个网页,然后查看网页源代码,我是缅甸语可以去这个网站。另外,如果发现生成的图片和标签不一致,很有可能是字体的原因。fd 是指定字体文件夹,生成的图片什么字体都有。,按照下面这个方法安装。原创 2022-09-07 11:52:08 · 390 阅读 · 0 评论 -
OCR 表格识别中的树编辑距离
> 和是一对,就像括号一样。thead 是表头,就是下面加黑的那个。tr是一行,td是一个单元格。也就是说,是否要新开一行只与上一个单元格的行起点有关系。图片我是用的作者example文件夹中的,这里不仅有图片还有标签。还有脚本,脚本可以把jason转为HTML格式的。作者只提供了标签,没有提供图片。我们可以直接把标签里面复制到一个html文件中,然后用浏览器打开。上面是写好的标签,作者还提供了从json 文件读取。如果你的格式有点乱,可以格式化一下。作者提供了脚本,但是jupter。原创 2022-08-22 20:59:56 · 443 阅读 · 2 评论 -
编辑距离 只有插入和替换没有删除
核心改动:d[i][j] = min(d[i - 1][j], d[i][j - 1], d[i - 1][j - 1]) + min(np.argmin([d[i - 1][j], d[i][j - 1], d[i - 1][j - 1]]), 1)思路:如果最小值来自同列的上面一行,则需要删除操作。此时不再加一,即为忽略删除操作。我的改动:忽略识别结果中多出来的字符。下面是普通的编辑距离。......原创 2022-08-16 19:05:42 · 205 阅读 · 0 评论