HTML字符串的解析-dom4j

博客讲述了在处理OCR识别返回的HTML字符串时,如何利用dom4j进行解析以获取特定标签内容的过程,强调了dom4j在解析XML时的常见应用。
摘要由CSDN通过智能技术生成

1. 问题出现

   最近做身份证识别,ocr识别返回一堆html格式的字符串:

<div class='ocr_page' id='page_1' title='image ""; bbox 0 0 648 648; ppageno 0'>
<div class='ocr_carea' id='block_1_2' title="bbox 29 213 648 332">
<p class='ocr_par' id='par_1_2' lang='eng' title="bbox 29 213 648 332">
<span class='ocr_line' id='line_1_5' title="bbox 29 213 648 332; baseline -0.011 -55; x_size 34.444443; x_descenders 8.6111107; x_ascenders 8.6111107"><span class='ocrx_word' id='word_1_13' title='bbox 29 245 327 280; x_wconf 18'><strong><em>ASCXVTHQHUUFWWXHS</em></strong></span> <span class='ocrx_word' id='word_1_14' title='bbox 362 213 648 332; x_wconf 58'><strong><em>u</em></strong></span> 
</span>
</p>
</div>
<div class='ocr_carea' id='block_1_3' title="bbox 87 394 611 429">
<p class='ocr_par' id='par_1_3' lang='eng' ti
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值