- 博客(8)
- 资源 (1)
- 收藏
- 关注
原创 初始化隐藏状态【h0】和细胞状态【c0】到RNN,LSTM,GRU --OCR(光学字符识别)
这些张量的形状应该是(num_layers * num_directions, batch_size, hidden_size),其中num_layers是LSTM层数,num_directions是LSTM的方向数(对于双向LSTM为2,对于单向LSTM为1),batch_size是批量中的样本数,hidden_size是隐藏层的大小。h0和c0被初始化,可以根据需要使用其他值或策略来初始化它们。img = Image.open(‘00000.jpg’).convert(‘L’) #本地图片一张。
2024-06-19 00:05:46 185
原创 在OCR(光学字符识别)加入ctc_decode 输出每个时间步可能存在的字符
在使用这些函数时,通常需要提供模型的输出概率、序列长度等信息,并设置适当的解码参数(如束大小、空白标记等)。束搜索(Beam Search):在每个时间步上,保留概率最高的几个候选序列(即“束”),并在后续时间步上扩展这些序列。总结来说,ctc_decode 是将 CTC 模型输出转换为最终序列的过程,涉及解码策略的选择、解码函数的调用以及后处理步骤。此外,还有一些开源的 CTC 解码库,如 fast-ctc-decode(如参考文章2所述),这些库通常提供了更高效的解码实现和更灵活的配置选项。
2024-06-18 17:25:03 149
原创 OCR(光学字符识别)任务中 字符准确率、单词准确
字符准确率是指OCR系统正确识别出的字符数占总字符数的比例,而单词准确率则是指OCR系统正确识别出的单词数占总单词数的比例。在OCR(光学字符识别)任务中,记录训练准确次数是一个关键步骤,它有助于我们评估模型的性能和优化训练过程。当模型在验证集上的准确率达到或超过设定的阈值时,记录当前的迭代次数或epoch数。根据记录的准确率数据和训练准确次数,分析模型在训练过程中可能存在的问题,如过拟合、欠拟合、梯度消失等。可以将训练准确次数作为模型训练的一个关键指标,用于比较不同模型或不同训练策略的性能。
2024-06-17 23:54:03 112
原创 深度学习-运用transforms方法 对图片增强
transforms方法在图像增强中起到了至关重要的作用,特别是在深度学习的数据预处理阶段。以下是关于transforms方法如何对图片进行增强的详细解释:数据增强的目的数据增强是一种常用的数据预处理技术,通过对训练集进行各种变换和扩增操作,增加训练数据的多样性和丰富性,从而提高模型的泛化能力。其目的是模拟真实世界中的各种场景和变化,帮助模型学习到更多不同的特征和模式,提高模型对于不同样本的适应能力,减少过拟合的风险。
2024-06-17 16:30:03 488
原创 减小模型损失率 需要哪些充足准备
请注意,不同的任务和数据集可能需要不同的策略和参数设置,因此在实际应用中需要进行适当的调整和优化。使用网格搜索(grid search)或随机搜索(random search)等策略来调整模型的超参数,如学习率、批量大小、正则化强度等。例如,对于分类任务,可以使用交叉熵损失;使用合适的初始化策略,如He初始化、Xavier初始化等,来初始化模型的权重和偏置。选择一个合适的优化器,如SGD、Adam、RMSprop等,来更新模型的权重。根据需要,可以调整优化器的参数,如学习率、动量等,以找到最佳的训练效果。
2024-06-17 15:49:07 232
原创 python 实现鼠标滚轮自动下滑加载网页数据
1.没有selenium库 安装 pip install selenium。2.下载webdriver 放在python 根目录里面。【python 实现鼠标滚轮自动下滑加载网页数据】好用代码持续更新中…
2023-09-22 13:40:01 332
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人