html文本解析节点demo

package com.enterprise.common;

import java.util.ArrayList;
import java.util.List;

import org.htmlparser.Parser;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.nodes.TagNode;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
import org.htmlparser.visitors.HtmlPage;

//相关jar htmlexer.jar htmlparser.jar
public class TestDemo {
     public static NodeList parserHtmlNodes(String html, String encode, String tagname, String tagArr, String tagArrValue)
      {
        if ((html == null) || (html.equals(""))) {
          return null;
        }
        Parser parser = Parser.createParser(html, encode);
        HtmlPage page = new HtmlPage(parser);
        try
        {
          parser.visitAllNodesWith(page);
          List<LinkTag> tags = new ArrayList();
          NodeList nodelist = page.getBody();
          if ((nodelist == null) || (nodelist.size() == 0))
          {
            html = "<body>" + html + "</body>";
            parser = Parser.createParser(html, encode);
            parser.visitAllNodesWith(page);
            nodelist = page.getBody();
          }
          if (nodelist != null)
          {
            NodeList filterList = nodelist.extractAllNodesThatMatch(new TagNameFilter(tagname), true);
            if (filterList != null)
            {
              NodeList list = new NodeList();
              int nodeSize = filterList.size();
              for (int i = 0; i < nodeSize; i++)
              {
                TagNode tagNode = (TagNode)filterList.elementAt(i);
                String tagNodeArrValue = tagNode.getAttribute(tagArr);
                if ((tagNodeArrValue != null) && (tagNodeArrValue.contains(tagArrValue))) {
                  list.add(tagNode);
                }
                if ((tagArr != null) && (tagname.equals(tagArr))) {
                  list.add(tagNode);
                }
              }
              return list;
            }
          }
        }
        catch (ParserException ex)
        {
         // logger.error(ex.getMessage(), ex);
        }
        return null;
      }

      
      public  static void main(String[] args)  
        {  
        StringBuffer html=new StringBuffer();
             html.append("<div class=\"form-unit\"><span>工程项目名称:</span>  <input type=\"text\" id=\"sectionName\" readonly=\"readonly\" style=\"width: 266px;\" value=\"罗源口岸通关中心建设项目--装饰部分\"></div>");
             html.append("<div class=\"form-unit\"><span>工程项目名称:</span>  <input type=\"text\" id=\"sectionNamexxx\" readonly=\"readonly\" style=\"width: 266px;\" value=\"电饭锅电饭锅\"></div>");

//获取符合要求的节点
             NodeList nodeList = TestDemo.parserHtmlNodes(html.toString(),"UTF-8", "input","type","text");
            // System.out.println(nodeList.toHtml());
             StringBuffer desBuffer =new StringBuffer(html);
             //    desNodeList.toNodeArray()
             if (nodeList != null) {
                 int nodeSize = nodeList.size();
                 for (int j = 0; j < nodeSize; j++) {                             
                         TagNode tag = (TagNode) nodeList.elementAt(j);
                         String value = tag.getAttribute("value");
                         String tagStr=tag.toHtml();
                         String pStr= "<p style=\"font-weight:700; \">"+value+"</p>";
                         desBuffer.replace(desBuffer.indexOf(tagStr),  desBuffer.indexOf(tagStr)+tagStr.length(), pStr);
                 }
             }
             System.out.println(desBuffer.toString());
        }  
}

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值