Practice Every Day_11(用HtmlParser解析Html文件)

     今天看了看解析Html文件,对于有些概念和方法还是有些模糊,其实,HtmlParser的功能是很多的,看了一天只是了解了其中的几种方法,看了看别人的例子,才明白了点。下面是对一个网页中的纯文本内容进行提取并输出。

import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.io.FileInputStream;
import java.io.File;
import java.net.HttpURLConnection;
import java.net.URL;
import org.htmlparser.Node;
import org.htmlparser.util.NodeIterator;
import org.htmlparser.Parser;



   public class Main

 {
  private static String ENCODE = "GBK";
  private static void message( String szMsg )
{
     try

   {
      System.out.println(new String(szMsg.getBytes(ENCODE), System.getProperty("file.encoding")));
    }
    catch(Exception e ){}                                
}
public static String openFile( String szFileName )
{
 try {
       BufferedReader bis = new BufferedReader(new InputStreamReader(new FileInputStream( new File(szFileName)), ENCODE) );
       String szContent="";
       String szTemp;
       while ( ( szTemp = bis.readLine()) != null)

     {
       szContent+=szTemp+"\n";                  

     }
       bis.close();
       return szContent;
      }
   catch( Exception e )
   {
    return "";
   }
}

public static void main(String[] args)

{
  try

 {
  Parser parser = new Parser("e:Lucene实例/page3.html");
  for (NodeIterator i = parser.elements (); i.hasMoreNodes(); )
 {
   Node node = i.nextNode();
  // message("getText:"+node.getText());
   message(node.toPlainTextString());
  // message("toHtml:"+node.toHtml());
  // message("toHtml(true):"+node.toHtml(true));
  // message("toHtml(false):"+node.toHtml(false));
   //message("toString:"+node.toString());
  // message("=================================================");
   }
}
catch( Exception e )

 {
  System.out.println( "Exception:"+e );

  }
   }
}

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值