爬虫知识点(二) 正则匹配数字 (敲黑板的那种!!!)

只有偷懒才能让我进步!!!

 

继续撸需求,在请求接口时返回了一个html页面,需要匹配其中的价格,但是数字并不是唯一的,如何匹配? (由于一些原因,把文字做了修改,请不要在意细节)

<html>
	<head>
		<meta http-equiv="Content-Type" content="text/html; charset=GBK" />
		<title>商品详细信息</title>


	</head>
	<body>
		<form name="goodsFilingStatusForm" method="post" action="/goodsFilingStatus.do?method=searchGoodsDetail" style="margin:0px;" id="/goodsFilingStatusForm">
			<table border="0" cellpadding="0" cellspacing="0" class="table005">
  				<tr>
    				<td class="table002a">&nbsp;</td>
    				<td class="table002b">
    					<table width="100%" border="0" class="table006">
      						<tr>
        						<td>&nbsp;</td>
        						<td>&nbsp;</td>
      						</tr>
    					</table>
    				</td>
    				<td class="table002c">&nbsp;</td>
  				</tr>
  				<tr>
    				<td class="table002d">&nbsp;</td>
    				<td valign="top" class="table002e">
    					<table width="100%" border="0" cellpadding="0" cellspacing="0">
  							<tr>
    							<td width="18"><a href="/jsp/common/welcome.jsp"><img src="/images/kuangjia_014.gif" alt="首页" width="18" height="15" border="0" /></a></td>
    							<td class="table005_text">商品详细信息</td>
    							<td>&nbsp;</td>
  							</tr>
  							<tr>
    							<td colspan="3" class="table012"></td>
    						</tr>
						</table>
    				<form action="" method="post" enctype="multipart/form-data" name="form1" id="form1"  style="margin:0px;">
      					<table border="0" class="table003">
        					<tr>
          						<td class="table003c">
   									<table width="100%" border="0" cellspacing="5">
  										<tr class="table003h">
   	 										<td >&nbsp;&nbsp;&nbsp;&nbsp;单证状态信息</td>
  										</tr>
									</table>
									<table width="100%" border="0" cellpadding="1" cellspacing="1" class="table006">
	            						<tr  >
	              							<td class="table003g">状态:</td>
	              							<td class="table004_text">审核通过</td>
	              							<td class="table003g">发送时间:</td>
	              							<td class="table004_text">2019-04-27 16:28:14</td>
	              							<td class="table003g">接收回执时间:</td>
	              							<td class="table004_text">2019-04-28 15:00:07</td>
	            						</tr>
	            						<tr  >
	              							<td class="table003g">回执详细信息:</td>
	              							<td class="table004_text">二级审核通过操作</td>
	              							<td class="table003g">主管检验:</td>
	              							<td class="table004_text">47140/办事处</td>
	              							<td class="table003g">锁定状态:</td>
	                        				<td class="table004_text">
	                        					
	                        					 未锁定 
	                        				</td>
	            						</tr>
    								</table>        
	          						<table width="100%" border="0" cellspacing="5">
	  									<tr class="table003h">
	    									<td >&nbsp;&nbsp;&nbsp;&nbsp;基本信息</td>
	  									</tr>
									</table>
	          						<table width="100%" border="0" cellpadding="1" cellspacing="1"class="table009">
	            						<tr>
	              							<td class="table007">电商平台代码/名称:</td>
	              							<td class="table008"></td>
	              							<td class="table007">电商商户代码/名称:</td>
	              							<td class="table008">K4718001123/太极老头儿科技有限公司</td>
	              							<td class="table007">申报企业:</td>
	              							<td class="table008">K47180001123/太极老头头科技有限公司</td>
	            						</tr>
	            						<tr>
	              							<td class="table007">申报类型:</td>
	              							<td class="table008">新增</td>
	              							<td class="table007">授权申报企业代码/名称:</td>
	              							<td class="table008">K4718000231/
	              												太极老头儿物流有限公司</td>
	              							<td class="table007">业务模式:</td>
	              							<td class="table008">网购保税进口</td>
										</td>
	            						</tr>
	          						</table>
	    							<table width="100%" border="0" cellspacing="5">
	  									<tr class="table003h">
	    									<td >&nbsp;&nbsp;&nbsp;&nbsp;商品信息</td>
	  									</tr>
									</table>
	            					<table width="100%" border="0" cellpadding="1" cellspacing="1" bordercolor="#283e4e">
	                      				<tr>
	                        				<td class="table007">案号:</td>
	                        				<td class="table008">K47180021500112375</td>
	                        				<td class="table007">商品货号:</td>
	                        				<td class="table008">7640140311235</td>
	                        				<td class="table007">商品税号:</td>
	                        				<td class="table008" width="14%">33041123</td>
	                      				</tr>
	                      				<tr>
	                        				<td class="table007">海关商品编码:</td>
	                        				<td class="table008" width="18%">330420039</td>
	                        				<td class="table007">商品名称:</td>
	                        				<td class="table008">M416</td>
	                        				<td class="table007">规格型号:</td>
	                        				<td class="table008">挺重</td>
	                      				</tr>
	                      				<tr>
	                        				<td class="table007">主要成分:</td>
	                        				<td class="table008">铁</td>
	                        				<td class="table007">品牌:</td>
	                        				<td class="table008">突突用的东西</td>
	                        				<td class="table007">计量单位:</td>
	                        				<td class="table008">把</td>
	                      				</tr>
	                      				<tr>
	                        				<td class="table007">价格:</td>
	                        				<td class="table008">21.0</td>
	                        				<td class="table007">币制:</td>
	                        				<td class="table008">人民币</td>
	                        				<td class="table007"><span class="table008">原产国:</span></td>
	                        				<td class="table008"></td>
	                      				</tr>
	                      				<tr>
	                        				<td class="table007">是否赠品:</td>
	                        				<td class="table008">否</td>
	                        				<td class="table007">是否检查:</td>
	                        				<td class="table008">非检查</td>
	                        				<td class="table007">条形码:</td>
	                        				<td class="table008">62821401122355</td>
	                      				</tr>
	                      				<tr>
	                        				<td class="table007">供货商企业名称:</td>
	                        				<td class="table008">Swiss Image I AG</td>
	                        				<td class="table007">供货商国别:</td>
	                        				<td class="table008">P城</td>
	                        				<td class="table007">生产企业名称:</td>
	                        				<td class="table008">绝地海岛</td>
	                      				</tr>
	                      				<tr>
	                        				<td class="table007">生产企业国别:</td>
	                        				<td class="table008"></td>
	                        				<td class="table007">适用标准:</td>
	                        				<td class="table008">国际标准</td>
	                        				<td class="table007">认证情况:</td>
	                        				<td class="table008">不需要</td>
	                      				</tr>
	                      				<tr>
	                        				<td class="table007">监管类别:</td>
	                        				<td class="table008">普通枪</td>
	                       					<td class="table007">境外食品生产企业注册号:</td>
	                        				<td class="table008"></td>
	                        				<td class="table007">企业风险明示标志:</td>
	                        				<td class="table008">同意</td>
	                      				</tr>
	                      				<tr><td class="table007">生产国:</td>
	                        				<td class="table008">P城</td>
	                        				<td class="table007">变更原因:</td>
	                        				<td class="table008" colspan="5"></td>
	                      				</tr>
	            					</table>
	      							<table width="100%" border="0" cellspacing="5">
	 									<tr class="table003h">
	   										<td >&nbsp;&nbsp;&nbsp;&nbsp;图片信息</td>
	 									</tr>
									</table>
	            					<div style="width:100%; height:auto;">
										
									</div>
									<table width="100%" border="0" cellspacing="5">
	 									<tr class="table003h">
	   										<td >&nbsp;&nbsp;&nbsp;&nbsp;附件信息</td>
	 									</tr>
									</table>
									<div style="width:100%; height:auto;">
										<div style="width:100%; height:auto;" align="left">
											
										</div>
									</div>
          						</td>
        					</tr>
      					</table>
        			</form>    
        			</td>
    				<td class="table002f">&nbsp;</td>
  				</tr>
  				<tr>
    				<td class="table002g">&nbsp;</td>
    				<td class="table002h">&nbsp;</td>
    				<td class="table002i">&nbsp;</td>
  				</tr>
			</table>
		</form>
	</body>
</html>

匹配代码如下:(貌似不太符合需求)

继续:(貌似有点作用,我遵循的原则是偷懒,一步到位的那种)

最终版:(html文件读入使用read方法,使用其他方法很麻烦的,不信你试试!)

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值