不同标签的信息提取

 由上一篇文章也可知:<H1 class="">与<td class="">恰好相反。

 

但是我们要提取他们里面的同一类型内容(时间),具体信息如下:

<font color="#808080">1730</font>发布时间:<font color="#808080">2005-11-1 15:08:16</font>;

<h2 class="ContentAuthor">作者:lm 日期:2007-04-05</h2>。

尝试了很多办法,都没有成功。适用于第一个信息的方法不适合第二个,反之亦然。最后通过打印出node节点的详细信息后,我才顺利完成任务。具体解决方法如下:

  1. Node time_node=time_nodes.elementAt(i);
  2.                 
  3.                 System.out.println(time_node.toHtml());
  4.                 /*
  5.                  * 效果如下:
  6.                  * F:/computer.hdu.edu.cn/ly/contentid=753.asp
  7.                    <font color="#808080">
  8.                    <font color="#808080">
  9.                    F:/computer.hdu.edu.cn/ly/articleid=9.asp
  10.                    <h2 class="ContentAuthor">作者:lmz 日期:2007-04-05</h2>
  11.                  */
  12.                 
  13.                 String check=time_node.toHtml();
  14.                 if(check.indexOf('#')!=-1)
  15.                 {
  16.                     indextime=time_node.getNextSibling().toHtml();
  17.                 }
  18.                 else
  19.                     indextime=time_node.getChildren().toHtml();

下面是我尝试过的一些错误方法,略过略过……

  1. try{
  2.                     indextime=time_node.getNextSibling().toHtml();
  3.                 }
  4.                 catch(Exception e){ 
  5.                     System.out.println("hello");
  6.                 } 
  7.                 
  8.                     if(indextime==null||indextime=="")
  9.                     {
  10.                         this.getParser().reset();
  11.                         NodeList time_nodes1=this.getParser().parse(time_filter);
  12.                         Node time_node1=time_nodes1.elementAt(i);
  13.                         indextime=time_node1.getChildren().toHtml();
  14.                     }
  15.                     */
  16.                                 
  17.                 /*
  18.                 Node node=time_nodes.elementAt(i); 
  19.                 NodeList node1=node.getChildren(); 
  20.                 indextime=node1.elementAt(0).toHtml();
  21.                 */
  22.                 /*
  23.                  * 用Node类,其对象不能用getChildren。
  24.                  * 而用tag类,则可以。
  25.                  */

乱七八糟,一塌糊涂

集成http://blog.csdn.net/caoxu1987728/archive/2008/10/04/3016042.aspx里面的代码就是一篇比较完整的代码!

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值