言山兮尺川-CSDN博客

原创 How-to-generate-kernel

在常规卷积的过程中找到相关性低的一部分卷积核，利用这部分卷积核结合深度可分离卷积搭建起新的网络框架。

2023-05-25 20:59:12 958

缺点和解决方案：对于需要考虑所有输入特征图信息的情况，分组卷积会降低模型的性能，对于这个问题，常常在两个分组卷积之间加入Channel_Shuffle模块打乱通道顺序，从而实现不同分组间的信息交换。经过3×3卷积核的卷积层（假设输出通道数为4，则卷积核shape为3×3×3×4），最终输出4个特征图。此时，卷积层共4个卷积核，每个卷积核有3个通道，每个通道的大小为3×3。那么每组中就只需要一个卷积核，且这个卷积核的大小为 K * K * 2。卷积核个数为 2 个，每个卷积核的大小为 K * K * 4。

2023-05-11 21:44:52 874

原创 GhostNet

在 Ghost Module 中，Input 先经过传统卷积得到通道数为 m 的特征图，但是最终需要的 Output 是 n 的通道数，Ghost Module 就需要把 m 个通道扩展到 n 个通道。卷积的目的就是生成多个特征图，要减少卷积操作的运算量，在之前的网络结构中使用了分组卷积和深度可分离卷积的方法，这些是使用新的运算操作来替换掉传统的卷积操作。由于每组内进行的是常规卷积，所以每组至少需要一个卷积核，即分组卷积输出通道数至少为 g，如果每组有 n 个卷积核，则输出。同时也需要保证模型的精确度。

2023-04-24 14:27:51 534

原创 OCR部署使用

OCR 项目分为安卓端和服务端两部分。安卓端选择图片并对图片进行矫正，矫正后的图片将传送到服务端进行识别。服务端识别出的文字传送到安卓端进行展示。

2023-04-03 20:50:23 823

原创图像方向矫正和透视变换处理

在日常拍摄的图片大多存在着旋转和透视变换的问题，之前尝试过几何方法和一些深度学习的模型。通过利用前期工作找到的深度学习模型的数据集，我们基于 PaddlePaddle 平台的 PaddleSeg 重新训练出了一个图像语义分割模型。模型处理对图片大小的影响：部分图片处理后会减小或不变，部分图片处理后会增大，但增大幅度在30%~50%区间。该模型可以找到图片中的文字区域，我们通过对文字区域的处理实现了对图片增强的目的。PS: FPS 指的是每秒可以处理的帧数，即每秒可以处理的图片。模型大小: 12 MB。

2023-03-15 18:26:50 890 2

原创 KPN对任意形状文本检测

对于在找到的每一个预测中心图中找到的点，实际上对应的是一个文本实例。每个像素点具有关于 x 轴和 y 轴的位置信息，每个像素点的 x 轴生成一个通道，y轴生成一个通道。相比起基于 FCN 网络的文本边缘检测网络，KPN网络可以更好地处理文本之间的间隔。通过预先设定的阈值对预测出的实例无关特征图进行二值化处理，得到待检测文本的轮廓。对图片中每一个像素点进行处理，从而生成两个通道的特征图。表示输出的实例无关特征图，每个通道对应一个文本的预测(表示由预测中心图中的一个点得到的核建议。表示输出特征图的宽度和高度，

2023-03-07 15:43:47 586

原创 Unprojecting_text_with_ellipses过程分析

原文链接。

2022-12-22 20:30:45 660

原创 Document-Dewarping

可以知道 [focal length] (焦距) 参数需要通过原图片的 EXIF 标签获取, 如果是裁剪后的图片则不行。这里还需要注意的是, 目前焦距的值只能通过手动输入, 并且需要使用 35mm 焦距。原文地址：http://ispl.snu.ac.kr/bskim/DocumentDewarping/可以发现和原文中的示例图片处理结果大致一致, 但是原文中的处理结果效果明显要好些。通过找到文档图片中文本行的位置信息来对整个文档图片进行调整处理。这里将使用原文中的图片进行测试, 得到如下效果图。

2022-12-09 14:16:33 186

原创通过DewarpNet解决图片扭曲问题

DewarpNet:使用堆叠的三维和二维回归网络进行单幅图像文件纠正论文地址: https://paperswithcode.com/paper/dewarpnet-single-image-document-unwarping代码地址: https://github.com/cvlab-stonybrook/DewarpNet从上往下依次为原图, 三维坐标图, 矫正图左侧为输入图片, 右侧为输出图片左侧为输入图片, 右侧为输出图片在自己的测试示例中, 从上往下可以发现左侧有无黑色边对矫正效果有一定的影响,

2022-11-23 13:06:38 1250 1

原创文档图片阴影去除

在 OCR 的预处理中需要对文档图片中有阴影的部分进行消除, 在此之前使用过图像增强的算法对其进行处理, 本质就是二值化的处理.在这篇文章中使用了新的方法进行处理, 并且将新方法和老方法之间进行了对比. 在文章最后还有使用模型对图片进行处理的效果.

2022-11-10 15:19:59 2471

原创论文写作课程心得和总结

比如做 CV 方向, 数据集大的不要, 训练时间长的不要, 模型太大爆显存的不要, 写得像“天书”论文的作者不要, 没有代码的不要。24、实验结果的描述有两方面的工作, 一个是对内部对比, 另一个是对外部对比。题目不要太长, 最好不要有基于什么什么, 直接提出自己的算法或者模型, 并给它去一个独特的名字 (可以简写的, 读起来顺口的). 可以加上一些这个领域类比较热门的词.8、根据自己的 idea 来设计实验方案, 这一步就可以先写到论文中, 能够多详细就多详细, 能做到的, 不能做到的, 统统都写进去。

2022-11-10 09:39:17 357

原创图像对比度增强

先对图像进行二值化操作, 然后对图像进行膨胀操作。类似于对图片中的线段加粗。

2022-11-05 14:49:24 707

原创 OCR测试—文字密度和中英文

总体来说, 文字密度在 v2 和 v3 两个模型上对检测有一定影响, 当文字稀疏且文字并非以单个字符出现时容易被检测到, 以单个字符出现时则不容易被检测到. 当图片中存在一定文字时, v3 的检测强于 v2.文字密度对 v2 和 v3 两个模型识别准确度没有明显影响, 但 v3 准确度明显低于 v2, 但是 v3 的速度明显快于 v2.以上识别和检测, 竞品皆优与 v2 和 v3 模型, 但速度上慢于 v2 和 v3 模型.在测试图片中出现了多个单字符的情况, v2 和 v3 模型都不能正确检测.

2022-10-28 21:38:11 793

原创 PaddleOCR服务化部署

PaddleOCR 提供 2 种服务部署方式：一种是 PaddleServing 的部署方式, 仅使用 CPU 推理预测在 Windows 和 Linux都能进行部署.若要使用 GPU 进行推理预测, 在 Windows 上只能使用 Docker 进行部署 (这步没有进行尝试).在 Linux 上可以手动部署, 也可以使用 Docker 部署 (这步没有进行尝试).另一种是 PaddleHub 的部署方式, 由于在 Windows 上设置 CUDA_VISIBLE_DEVICES=0 出现错误, 所以 Pa

2022-10-22 10:29:33 5496 4

原创模型效果测试

原图扫描全能王模型ch_PP-OCRv2模型ch_ppocr_mobile_v2.0模型en_PP-OCRv3图像增强 + 模型ch_ppocr_server_v2 PC测试图像增强 + 模型ch_PP-OCRv3 PC测试原图扫描全能王模型ch_PP-OCRv2模型ch_ppocr_mobile_v2.0模型en_PP-OCRv3图像增强 + 模型ch_ppocr_server_v2 PC测试图像增强 + 模型ch_PP-OCRv3 PC测试原图扫描全能王模型ch_PP-OCRv2模型ch_ppocr_m

2022-10-11 14:15:22 566

原创 PaddleOCR在文字检测方面上存在问题

在实现安卓项目的时候, 发现识别问题差强人意, 但对于不同图片就出现了总体效果不好的结果.可以很明显的发现对于很多图片出现了大部分文字无法检测到的问题.在最开始考虑进行图片增强的操作, 发现对检测效果提升微乎其微.正好 PaddleOCR 更新了版本并添加了新的检测算法 DB++. 以此为导向来对这个项目进行优化.

2022-09-26 20:47:31 2475 2

原创图像增强算法的安卓移植

在初期测试时, 对于文字占比较大的图片虽然识别率不高, 但是能够全部检测到. 但是在最近测试时发现, 模型对于此类图片的检测率只能达到 50 % 甚至更少. 无论使用其他开源模型还是使用官方网页模型以及官方在 PC 上的模型测试都是如此.Step 4 : 在 xxx/src/main/java/xxxxx/OCRPredictorNative.java 文件中添加函数, 作为 Java 调用 C++ 的接口.Step 3 : 在 xxx/src/main/cpp/native.cpp 文件末尾添加函数。

2022-09-16 15:56:40 1500

原创 PaddleOCR中Android示例Demo编译问题解决

在PaddleOCR项目 ( 地址为) 中的 deploy 文件夹下有个 android_demo 文件夹.android_demo 这个文件夹就是一个单独的项目. 但是在未编译 PaddleOCR 时, 单独编译这个项目就会出现问题.

2022-09-09 12:55:41 1059

原创基于 NCNN 的 Chinese-Lite 模型测试

对于密集文字, Chinese-Lite 检测和 PaddleOCR 同样优秀, 识别优于 PaddleOCR.Chinese-Lite 检测优于竞品, 识别弱于竞品.对于背景颜色, Chinese-Lite 检测优于 PaddleOCR, 不会出现漏检, 识别率弱于PaddleOCR. Chinese-Lite 识别率弱于竞品。180度: Chinese-Lite 检测弱于 PaddleOCR, 识别优于 PaddleOCR. Chinese-Lite 识别弱于竞品.Chinese-Lite 弱于竞品..

2022-08-29 23:17:26 522

原创基于NCNN的OCR模型的安卓移植

本文实现基于 NCNN 框架所实现的 OCR 模型移植.将基于一个安卓项目来省去开发过程而专注于移植过程.

2022-08-29 13:08:14 1403

原创 PaddleOCR安卓Demo存在的问题

在使用 PaddleOCR 项目中预设置的安卓程序时, 出现了两个问题.这里对两个问题进行一些初步分析并给出自己的猜测和之后将会进行的解决方案.

2022-08-18 13:48:30 1189

原创 PaddleOCR模型移植安卓

PaddleOCR 是一套丰富、领先、且实用的OCR工具库, 助力开发者训练出更好的模型, 并应用落地.基于 PaddleOCR 训练出的模型具有良好的文本识别性.PaddleOCR 的兼容性很差, 一个小版本都可能导致无法编译. 尤其需要注意高版本的 Android NDK, 它修改了各种库的位置, 很容易造成编译时出现头文件缺失的情况....

2022-08-10 17:35:18 2498 5

原创极大似然估计和交叉熵

对于一个多分类问题 (假设为KKK类), 有数据集D={(xi,yi)∣i}D={(xi,yi)∣i}. 我们希望建立模型去建模概率分布pθ(y∣x)pθ(y∣x), 模型参数为θ\thetaθ.我们使用损失函数评价模型的好坏, 可以采用两种方式来导出.最小化负对数似然函数和最小化交叉熵在形式上虽然看起来是一样的, 但是公式背后的含义不同....

2022-08-05 18:05:07 806

原创 PythonStudy6

只剩下神经网络没有使用, 或者还有其他的算法. 还是更想对数据分析更透彻一些. 为了结果而做一些工作虽然看起来很不错, 但自己总感觉是 “为赋新词强说愁”.看一些博客了解到相关性这个东西, 说不定会对分类有所效果....

2022-08-03 16:49:08 163

原创 PythonStudy5

在处理数据的时候需要考虑对数据属性的取舍.除此之外,还要对不同属性中有些偏离程度大的数据进行处理,例如舍去那些偏离程度大的数据.此时,如果能够将数据通过图像的形式表现出来,就能很好地完成上述工作.另一方面就是,每次需要代码时,都是借用别人写好的代码.自己没有理解到精髓,想要对内容进行扩展自然也就成了问题.现在能画一些简单的图,当然还可以很多可以学习的地方,例如坐标轴的步长还有线的颜色和虚实.需要的时候再来进行查找和补充吧！httpshttpshttpshttps。...

2022-08-01 18:06:06 135

原创 PythonStudy4

无论怎么选择数据特征都难以得到一个高的分类率.最后在看方差和标准差的时候,发现数据不同特征的这两个值不在一个数量级上.这都是自己没有做归一化导致的结果,所以这里尝试归一化之后再来进行训练.相比之前有了很大提升,但是始终无法使正确率到达80%甚至是90%以上.修改归一化规则对结果也是大差不差.那么我应该考虑是否应该切换或者修改算法了,毕竟KNN只是基础的算法.https。......

2022-07-24 19:23:55 266

原创 PythonStudy3

排除掉数据集大小不够的原因,那么就只剩下选择数据属性的问题.排除掉专业知识的影响,我更希望找到那种区别大,离散程度小的数据属性.所以我的想法就是找平均值有差距,但是方差或者标准差小的数据属性.虽然能够想到的方法都试过了,但是在观察数据属性的统计属性时发现了一个问题.在进行训练之前我都没有对数据进行归一化,犯了一个非常巨大的错误.因为观察数据集,发现有的数据大,有的数据小.归一化在这里的重要性就不用说了,所以在写代码之前的思考和观察是必不可少的.httpshttps。...

2022-07-22 17:47:15 203

原创 PythonStudy2

接之前的分析,先不考虑数据集中数据的选择问题.先把数据集的数据量扩大,暂时不考虑不同地区采集的数据的区别.希望能够找到一些固有的联系吧.其实如果是以目的驱动,倒可以分析一下不同类别数据的统计学属性,然后归纳出一个合理选择数据的规则.那么接下来的任务就是就是对数据进行分析,然后再修改算法.httpshttpshttps。...

2022-07-20 18:07:18 54

原创 PythonStudy1

本文利用Python的第三方库来对一个没有经过任何处理的excel表格进行处理并对处理后的数据采用KNN算法来实现分类.整体来说用第三方库来写代码很舒服,但是是不是这样就能高枕无忧了呢？答案当然不是,这只是用来寻找思路的方法.要有创新就要自己完成代码,有些基础性的工作可以用第三方库替代,但是算法万万不能,出了出了错连问题都定位不了.然后就是多次测试后能够得出最高的分类率了,66.6%这个貌似太低了一些.httpshttpshttps。...

2022-07-18 18:44:41 255

原创新生任务-5

矩阵中每一行代表一个用户,而每一列则代表一个物品.若用户对物品有过评分,则矩阵中处在用户对应的行与物品对应的列交叉的位置表示用户对物品的评分值.矩阵中的‘x’代表用户对物品未评分.这个矩阵就叫做User-Item评分矩阵,这个矩阵中的数在实际统计后大多数现显示为问号.对于多维变量的函数,梯度为0的点有三种情况——极大值、极小值、鞍点.极小值是梯度下降过程最稳定的不动点.迭代过程可以参照下雨的时候水的流向,水总是会聚集在坑(极小值)里面.两矩阵初始化的元素值设为随机数....

2022-07-16 17:14:54 110

原创新生任务-4

和之前利用 AATAA^{\mathrm{T}}AAT 的特征值求奇异值不同的是, 这个方法看起来不太能够理解, 在书上的描述也比较简单.其实就是简单的两步, 第一步通过 Household\mathrm{Household}Household 变换使得矩阵 AAA 变成二重对角矩阵. 所谓二重对角矩阵就是除了主对角线以及主对角线上面一条对角线外的其余元素全为 0.第二步就是反复利用正交变换使得除主对角线外的那些元素逐渐减小靠近 0.虽然看起来很简单, 但是没有公式和实际例子, 自己也只能慢慢来摸索方法.现

2022-07-12 19:42:55 289

原创新生任务-3

这是一个非常自然的过程. 算法中需要数据喂进去, 对于数据来说可以用向量或者是矩阵来表示.机器学习就是对优化算法围绕讨论. 本质上就是一个方程, 使用向量或者矩阵能够使得运算速度更快. 例如在使用 numpy 库计算向量之间内积的时候能体现出和使用循环计算内积方式的速度差距.求导是为了获取到损失函数的变换趋势, 以便于对算法优化过程进行迭代处理.f1(x)=x2Rx⟶Rx2f_1(x) = x^2 \quad \underset{x}{R} \longrightarrow \underset{x^2}{

2022-07-10 19:32:23 300

原创新生任务-2

首先说明一点, 矩阵的行秩是等于列秩等于矩阵的秩的. 行秩和列秩是考虑到不同的向量空间 (行空间和列空间).要求矩阵的秩, 实际上对矩阵进行高斯消元, 然后找有几行非零元素就是矩阵的秩. 示例如下:A=[1222246836610]⇒[122200240024]⇒[122200240000]=UA = \begin{bmatrix} 1& 2& 2& 2\\ 2& 4& 6& 8\\ 3& 6& 6& 10\end{bmatrix} \Rightarrow \begin{bmat

2022-07-06 17:32:05 118

原创新生任务-1

推荐系统顾名思义就是为用户进行推荐的系统. 无论是商品、音乐、书籍或电影, 都能够通过这样的一个系统对使用者进行推荐.像淘宝中给你推荐你可能感兴趣的商品, 抖音软件中你下一条即将播放的视频, 这些都算是推荐系统的实际运用场景.关于推荐系统一词, 很多人的第一印象是亚马逊当年号称有 20% 的成交来源于推荐, 就像很多人讲大数据, 总是会提啤酒和尿布的故事（世界杯的时候, 丈夫会在购买啤酒的同时购买尿布）.在 PC 时代, 推荐系统更像是一个补充. PC 屏幕很大, 推荐的场景能出现在各种地方, 比如很多

2022-07-04 21:33:25 75

原创矩阵分析与应用-6.2~6.3-奇异值分解-Section2

本文学习过程来源是《矩阵分析与应用-张贤达》一书. 可以通过 z-lib 下载.矩阵 Am×nA_{m \times n}Am×n 和其复共轭转置矩阵 AHA^{\mathrm{H}}AH 具有相同的奇异值.矩阵 Am×nA_{m \times n}Am×n 的非零奇异值是 AAHAA^{\mathrm{H}}AAH 或者 AHAA^{\mathrm{H}A}AHA 的非零特征值的正平方根.σ>0\sigma > 0σ>0 是矩阵 Am×nA_{m \times n}Am×n 的单奇异值, 当且仅当

2022-07-02 16:55:01 818

原创矩阵分析与应用-6.2-奇异值分解-Section1

本文学习过程来源是《矩阵分析与应用-张贤达》一书. 可以通过 z-lib 下载.对于任意复长方矩阵都可以进行奇异值分解.定理 1 (矩阵的奇异值分解) : 令 A∈Rm×nA \in R^{m \times n}A∈Rm×n ( 或 Cm×nC^{m \times n}Cm×n ), 则存在正交 (或酉) 矩阵 U∈Rm×mU \in R^{m \times m}U∈Rm×m 和 V∈Rn×nV \in R^{n \times n}V∈Rn×n ( 或 Cn×nC^{n \times n}Cn×n ) 使

2022-06-30 18:31:58 273

原创矩阵分析与应用-5.3-共轭梯度与无约束最优化

本文学习过程来源是《矩阵分析与应用-张贤达》一书. 可以通过 z-lib 下载.更加详细的内容可以跳转网址 https://zlearning.netlify.app/math/matrix/matrix-gradient.html若 f(x)=cf(x) = cf(x)=c 为常数, 则共轭梯度 ∂c∂x∗=0\frac{\partial c}{\partial x^*} = 0∂x∗∂c=0线性法则: 若 f(x)f(x)f(x) 和 g(x)g(x)g(x) 分别是向量 xxx 的实值函数, c1

2022-06-28 17:59:11 191

原创矩阵分析与应用-4.7-QR分解及其应用-Section2

本文学习过程来源是《矩阵分析与应用-张贤达》一书. 可以通过 z-lib 下载.Givens\mathrm{Givens}Givens 旋转也可以用来计算 QR\mathrm{QR}QR 分解. 这里以 4×34 \times 34×3 矩阵为例, 说明 Givens QR\mathrm{Givens \ QR}Givens QR 分解的思想.[××××××⊗××⊗××]⟶G(3,4)[×××⊗××⊗××0××]⟶G(2,3)[⊗××⊗××0××0××]⟶G(1,2)[×××0××0⊗×0⊗×]⟶G(3,

2022-06-26 16:10:39 541

原创矩阵分析与应用-4.7-QR分解及其应用-Section1

本文学习过程来源是《矩阵分析与应用-张贤达》一书. 可以通过 z-lib 下载.定理 1 ( QR\mathrm{QR}QR 分解 ): 若 A∈Rm×nA \in R^{m \times n}A∈Rm×n, 且 m≥nm \ge nm≥n, 则存在列正交的矩阵 Q∈Rm×mQ \in R^{m \times m}Q∈Rm×m 和上三角矩阵 R∈Rm×nR \in R^{m \times n}R∈Rm×n 使得 A=QRA = QRA=QR当 m=nm = nm=n 时, QQQ 是正交矩阵. 如果 AA

2022-06-22 17:17:18 685

原创矩阵分析与应用-4.4~4.6章节内容

本文学习过程来源是《矩阵分析与应用-张贤达》一书. 可以通过 z-lib 下载.矩阵分解顾名思义就是通过线性变换把某个已知矩阵分解成多个矩阵, 这多个矩阵之间的关系是怎样的呢?一般情况下分解为两个或者三个标准型矩阵的乘积. 个别情况是两个标准型矩阵之和.这里提到的标准型矩阵就是若尔当标准型矩阵.虽然在《Introduction to Linear Algebra》附录中记载着十五种矩阵分解的方法, 但是我们通过矩阵分解后得到的标准型据以及是对单个矩阵还是两个矩阵组成的矩阵束或矩阵对进行分解来划分矩阵的

2022-06-20 18:14:32 202

空空如也

空空如也