最近在做一些内容搜索的工作,搜索出来的内容为html格式,列表部分需要显示每项内容的一部分。因为是html格式的内容,直接截取内容的前多少字符显然不合适了。而如果直接去掉所有html格式然后再截取又无法达到想要的效果,再网上搜了一通之后,写下如下代码应该可以满足基本的要求了。(js写的,因为容易调试)
代码
var
br
=
{};
br.spTags = [ " img " , " br " , " hr " ]; /* 不需要成对出现的标记 */
br.contain = function (arr,it){
for ( var i = 0 ,len = arr.length;i < len;i ++ ){
if (arr[i] == it){
return true ;
}
}
return false ;
}
br.subArtc = function (article,worldNum){
var result = [];
/* 首先截取需要的字串 */
var wcount = 0 ;
var startTags = [],endTags = [];
var isInTag = false ;
for ( var i = 0 ,len = article.length;i < len;i ++ ){
var w = article[i];
result.push(w);
if (w == " < " ){
isInTag = true ;
}
if ( ! isInTag){
wcount ++ ;
if (wcount == worldNum){
break ;
}
}
if (w == " > " ){
isInTag = false ;
}
}
/* 对字串进行处理 */
var j = 0 ;
isInTag = false ;
var isStartTag = true ;
var tagTemp = "" ;
while (j < i){
w = result[j];
if (isInTag){
if (w == " > " || w == " " || w == " / " ){
isInTag = false ;
if (isStartTag){
startTags.push(tagTemp);
} else {
endTags.push(tagTemp);
}
tagTemp = "" ;
}
if (isInTag){
tagTemp += w;
}
}
if (w == " < " ){
isInTag = true ;
if (result[j + 1 ] == " / " ){
isStartTag = false ;
j ++ ;
} else {
isStartTag = true ;
}
}
j ++ ;
}
/* 剔除img,br等不需要成对出现的标记 */
var newStartTags = [];
for ( var x = 0 ,len = startTags.length;x < len;x ++ ){
if ( ! br.contain(br.spTags,startTags[x])){
newStartTags.push(startTags[x]);
}
}
/* 添加没有的结束标记 */
var unEndTagsCount = newStartTags.length - endTags.length;
while (unEndTagsCount > 0 ){
result.push( " < " );
result.push( " / " )
result.push(newStartTags[unEndTagsCount - 1 ]);
result.push( " > " );
unEndTagsCount -- ;
}
return result.join( "" );
};
br.spTags = [ " img " , " br " , " hr " ]; /* 不需要成对出现的标记 */
br.contain = function (arr,it){
for ( var i = 0 ,len = arr.length;i < len;i ++ ){
if (arr[i] == it){
return true ;
}
}
return false ;
}
br.subArtc = function (article,worldNum){
var result = [];
/* 首先截取需要的字串 */
var wcount = 0 ;
var startTags = [],endTags = [];
var isInTag = false ;
for ( var i = 0 ,len = article.length;i < len;i ++ ){
var w = article[i];
result.push(w);
if (w == " < " ){
isInTag = true ;
}
if ( ! isInTag){
wcount ++ ;
if (wcount == worldNum){
break ;
}
}
if (w == " > " ){
isInTag = false ;
}
}
/* 对字串进行处理 */
var j = 0 ;
isInTag = false ;
var isStartTag = true ;
var tagTemp = "" ;
while (j < i){
w = result[j];
if (isInTag){
if (w == " > " || w == " " || w == " / " ){
isInTag = false ;
if (isStartTag){
startTags.push(tagTemp);
} else {
endTags.push(tagTemp);
}
tagTemp = "" ;
}
if (isInTag){
tagTemp += w;
}
}
if (w == " < " ){
isInTag = true ;
if (result[j + 1 ] == " / " ){
isStartTag = false ;
j ++ ;
} else {
isStartTag = true ;
}
}
j ++ ;
}
/* 剔除img,br等不需要成对出现的标记 */
var newStartTags = [];
for ( var x = 0 ,len = startTags.length;x < len;x ++ ){
if ( ! br.contain(br.spTags,startTags[x])){
newStartTags.push(startTags[x]);
}
}
/* 添加没有的结束标记 */
var unEndTagsCount = newStartTags.length - endTags.length;
while (unEndTagsCount > 0 ){
result.push( " < " );
result.push( " / " )
result.push(newStartTags[unEndTagsCount - 1 ]);
result.push( " > " );
unEndTagsCount -- ;
}
return result.join( "" );
};
基本思路:
1.绕过标记,取得实际内容字数 ,如需要显示内容前100个字,绕过标记检索,得到第一百个字实际的索引。然后截取此索引前面的字串。
2.根据一得到的字串,得到这个字串中存在的开始标记和结束标记。注:此处的开始标记标识以"<"开通,且下一个字符不为"/"。
3.剔除2中 得到的开始标记中的不需要成对出现的标记。如br,img,hr等。
4.对比经过3处理的开始标记和2中得到的结束标记,没有配成对的在合适的位置为其配对。