jsp/java截取截断html内容的方法与技巧

4 篇文章 0 订阅

http://www.iteye.com/topic/730396

package com.tools;    
   
import java.util.ArrayList;    
import java.util.List;    
import java.util.regex.Matcher;    
import java.util.regex.Pattern;    
   
@SuppressWarnings({"unchecked" })    
public class CutHtml {    
    static String htmlMatch = "";    
   
    // 通过递归删除html文件中的配对的html标签    
   
    public static String removeMatchHtmlTag() {    
        // String html="<p></p><table><tr><td></td><td></td></tr></table>";    
        Pattern p = Pattern.compile("<([a-zA-Z]+)[^<>]*>(.*?)</\\1>");    
        Matcher m = p.matcher(htmlMatch);    
        if (m.find()) {    
        //  System.out.println(htmlMatch);    
            htmlMatch = htmlMatch.replaceAll("<([a-zA-Z]+)[^<>]*>(.*?)</\\1>","$2");    
   
            removeMatchHtmlTag();    
        }    
   
        return htmlMatch;    
    }    
   
    public static String subStringHTML(String param, int length, String endWith) {    
   
        if(length<1) {System.out.println("length must >0");return null;}    
            
        if(param.length()<length){return param;}    
            
        StringBuffer result = new StringBuffer();    
        StringBuffer str = new StringBuffer();    
        int n = 0;    
   
        char temp;    
   
        boolean isCode = false; // 是不是HTML代码    
        boolean isHTML = false; // 是不是HTML特殊字符,如    
        for (int i = 0; i < param.length(); i++) {    
            temp = param.charAt(i);    
            if (temp == ’<’) {    
                isCode = true;    
            }    
            else if (temp == ’&’) {    
                isHTML = true;    
            }    
            else if (temp == ’>’ && isCode) {    
                n = n - 1;    
                isCode = false;    
            }    
            else if (temp == ’;’ && isHTML) {    
                isHTML = false;    
            }    
            if (!isCode && !isHTML) {    
                n = n + 1;    
                // UNICODE码字符占两个字节    
                if ((temp + "").getBytes().length > 1) {    
                    n = n + 1;    
                }    
                str.append(temp);    
            }    
            result.append(temp);    
            if (n >= length) {    
                break;    
            }    
        }    
   
        result.append(endWith);    
        // 取出截取字符串中的HTML标记    
        String temp_result = result.toString().replaceAll("(>)[^<>]*(<?)","$1$2");    
   
        // 去掉不需要结束标记的HTML标记    
   
        temp_result = temp_result    
                .replaceAll("<(AREA|BASE|BASEFONT|BODY|BR|COL|COLGROUP|DD|DT|FRAME|HEAD|HR|HTML|IMG|INPUT|ISINDEX|LI|LINK|META|OPTION|P|PARAM|TBODY|TD|TFOOT|TH|THEAD|TR|area|base|basefont|body|br|col|colgroup|dd|dt|frame|head|hr|html|img|input|isindex|li|link|meta|option|p|param|tbody|td|tfoot|th|thead|tr)[^<>]*/>","");    
   
        // 去掉成对的HTML标记    
        // temp_result=temp_result.replaceAll("<([a-zA-Z]+)[^<>]*>(.*?)</\\1>","$2");    
        htmlMatch = temp_result;    
        temp_result = removeMatchHtmlTag();    
        //System.out.println("6666:" + temp_result);    
        // 用正则表达式取出标记    
   
        Pattern p = Pattern.compile("<([a-zA-Z]+)[^<>]*>");    
        Matcher m = p.matcher(temp_result);    
        List endHTML = new ArrayList();    
   
        while (m.find()) {    
            endHTML.add(m.group(1));    
        }    
   
        // 补全不成对的HTML标记    
        for (int i = endHTML.size() - 1; i >= 0; i--) {    
            result.append("</");    
            result.append(endHTML.get(i));    
            result.append(">");    
   
        }    
        return result.toString();    
   
    }    
   
    public static void main(String args[]) {    
        String param = "<html><p><p>0<img src=’xx.gif’/>http://www.dukai168.cn ©</p><table><tr><td>678901</td><td>21111111111</td></tr></table></p></html>";    
        System.out.println(CutHtml.subStringHTML(param,100, "..."));    
    }    
   
}   


  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值