使用shell抽取html数据之二

昨天使用shell脚本来抽取html数据的时候,碰到了一个问题,如果要抽取的数据成了如下的情形时,数据的抽取就会出现不一致,有一些记录会没有数据,只显示"未开售" 这个时候如果还是按照原来的思路来抽取就会出现数据混乱的情况,比如根据第一列抽取数据一共有75 行,但是根据右边的赔率只能得到74行,有一行的数据混乱,后面的数据就全乱了。

+1 
5.80 ↑   4.40   1.38 ↓
  2.58↑ 3.55↑ 2.18↓
2
未开售
  1.55↓ 4.30 4.00↑

大体的Html代码如下:
可以看到对应的div FM2,FHMW如果都有数据,都含有3行对应的数据,如果div FMW中只显示“未开售”的时候,只有一行。
这样数据明显的不对应。
需要找到一定的规律来有条件的抽取和过滤。

                                                        

                                                            
FMW">
                                                                 6.00
                                                                 4.30
                                                                 1.38
                                                            

                                                            
FHMW">
                                                                 2.55
                                                                     3.50
                                                                     2.22  "return false;">
                                                            

 
                                                     
                                                             0
                                                             -2
                                                        

                                                        

                                                        

                                                            
FMW">
                                                                 未开售
                                                                                                                                 
                                                            

                                                            

                                                                 1.53
                                                                     4.45
                                                                     4.00
                                                            
    


现在来做一个改进,按照div来抽取。
grep "em class=\"vs\"" *e|awk -F"score-text\">" '{print $2}'|awk -F" vs.lst
grep  -A4 "div class=\"selection\"" *e|grep -A3 "FMW" |awk '{ if($2~/no-sale/) {print "\"num\">0< \n \"num\">0< \n \"num\">0< \n" } else {print $5$6}}'|awk -F"num\">" '{print $2}'|awk -F" fmw.lst
grep  -A9 "div class=\"selection\"" *e|grep -A3 "FHMW" |awk '{ if($2~/no-sale/) {print "\"num\">0< \n \"num\">0< \n \"num\">0< \n" } else {print $5$6}}'|awk -F"num\">" '{print $2}'|awk -F" hfmw.lst

抽取后的数据就会很自然的显示出来,我们把“未开售”的记录设置为0
数据抽取过滤后,结果就会如下所示,数据就不会乱了。
1,3.40,3.35,1.88,1.71,3.65,3.70
2,0,0,0,2.85,4.20,1.85
1,4.90,3.95,1.50,2.24,3.60,2.47
1,7.10,4.80,1.29,2.95,3.75,1.91
1,5.30,3.85,1.48,2.26,3.35,2.58
1,5.00,4.00,1.49,2.25,3.55,2.48
1,3.20,3.40,1.93,1.68,3.75,3.75

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/23718752/viewspace-1257616/,如需转载,请注明出处,否则将追究法律责任。

user_pic_default.png
请登录后发表评论 登录
全部评论
<%=items[i].createtime%>

<%=items[i].content%>

<%if(items[i].items.items.length) { %>
<%for(var j=0;j
<%=items[i].items.items[j].createtime%> 回复

<%=items[i].items.items[j].username%>   回复   <%=items[i].items.items[j].tousername%><%=items[i].items.items[j].content%>

<%}%> <%if(items[i].items.total > 5) { %>
还有<%=items[i].items.total-5%>条评论 ) data-count=1 data-flag=true>点击查看
<%}%>
<%}%>
<%}%>

转载于:http://blog.itpub.net/23718752/viewspace-1257616/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值