截取在线编辑器的字符串的处理

原文链接: http://yidwo.iteye.com/blog/60097

package html;

import java.util.ArrayList;

import java.util.List;

import java.util.regex.Pattern;

import java.util.regex.Matcher;

/**
 * 
 * 
 * 按字节长度截取字符串(支持截取带HTML代码样式的字符串)
 * 
 * 
 * @param param
 *            将要截取的字符串参数
 * 
 * 
 * @param length
 *            截取的字节长度
 * 
 * 
 * @param end
 *            字符串末尾补上的字符串
 * 
 * 
 * @return 返回截取后的字符串
 * 
 * 
 */

public class SubStringHTML

{
	public static void main(String[] argv) {
		String content="<P><SPAN></SPAN> </P><P><SPAN><IMG src='http://219.238.146.131/affixdata/UploadFile/2008032710531000.jpg' border=0></SPAN></P><P><SPAN>厦门污水处理厂鸟瞰图</SPAN></P><P><SPAN></SPAN> </P><P><SPAN>中环保水务投资公司下属企业厦门</SPAN><SPAN>污水处理厂在福建省城市污水处理厂运行评估考核中取得第一名的优异成绩。<SPAN><?xml:namespace prefix = o ns = 'urn:schemas-microsoft-com:office:office' /><o:p></o:p></SPAN></SPAN></P><P>福建省政府办公厅为加强规范城市污水处理厂的运行管理,促进达标排放,省建设厅组织<FONT><FONT><SPAN>19</SPAN>名专家组成评估考核小组,对全省<SPAN>30</SPAN>座城市污水处理厂开展运行评估考核工作。各评估小组通过听取污水处理厂运行情况汇报,查验相关人员资格证书、运行工艺及化验检测报表、原始记录等资料,计算分??评议,对各污??水质管理、安全管理、厂容厂貌、财务管理、档案管理等<SPAN>8</SPAN>个大大类进行全面细致的考核,重点评估工艺运行管理和水质管理。在本次评估考核<SPAN>30</SPAN>污水处理厂中,中环水务下属企业厦门</FONT></FONT></SPAN><SPAN>污水处理厂得分最高。在机构设置、人员备齐、工艺运行管理和水质管理、原始记录、规章制度建立等各方面规范、到位。<SPAN><o:p></o:p></SPAN></SPAN></P>";
		System.out.println(subStringHTML(content,100,"......"));
	}
	public static String subStringHTML(String param, int length, String end) {

		StringBuffer result = new StringBuffer();
		int n = 0;
		char temp;
		boolean isCode = false; // 是不是HTML代码
		boolean isHTML = false; // 是不是HTML特殊字符,如
		for (int i = 0; i < param.length(); i++) {
			temp = param.charAt(i);
			if (temp == '<') {
				isCode = true;
			} else if (temp == '&') {
				isHTML = true;
			} else if (temp == '>' && isCode) {
				n = n - 1;
				isCode = false;
			} else if (temp == ';' && isHTML) {
				isHTML = false;
			}
			if (!isCode && !isHTML) {
				n = n + 1;
				// UNICODE码字符占两个字节
				if ((temp + "").getBytes().length > 1) {
					n = n + 1;
				}
			}
			result.append(temp);
			if (n >= length) {
				break;
			}
		}
		result.append(end);
		// 取出截取字符串中的HTML标记
		String temp_result = result.toString().replaceAll("(>)[^<>]*(<?)","$1$2");
		// 去掉不需要结素标记的HTML标记
		temp_result = temp_result.replaceAll("</?(AREA|BASE|BASEFONT|BODY|BR|COL|COLGROUP|DD|DT|FRAME|HEAD|HR|HTML|IMG|INPUT|ISINDEX|LI|LINK|META|OPTION|P|PARAM|TBODY|TD|TFOOT|TH|THEAD|TR|area|base|basefont|body|br|col|colgroup|dd|dt|frame|head|hr|html|img|input|isindex|li|link|meta|option|p|param|tbody|td|tfoot|th|thead|tr)[^<>]*/?>","");
		// 去掉成对的HTML标记
		temp_result = temp_result.replaceAll("<([a-zA-Z]+)[^<>]*>(.*?)</\\1>","$2");
		// 用正则表达式取出标记
		Pattern p = Pattern.compile("<([a-zA-Z]+)[^<>]*>");
		Matcher m = p.matcher(temp_result);
		List endHTML = new ArrayList();
		while (m.find()) {
			endHTML.add(m.group(1));
		}
		// 补全不成对的HTML标记
		for (int i = endHTML.size() - 1; i >= 0; i--) {
			result.append("</");
			result.append(endHTML.get(i));
			result.append(">");
		}
		return result.toString();
	}
}

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值