截取文章一部分显示(无损html)

最近在做一些内容搜索的工作,搜索出来的内容为html格式,列表部分需要显示每项内容的一部分。因为是html格式的内容,直接截取内容的前多少字符显然不合适了。而如果直接去掉所有html格式然后再截取又无法达到想要的效果,再网上搜了一通之后,写下如下代码应该可以满足基本的要求了。(js写的,因为容易调试)

代码
var  br  =  {};
br.spTags 
=  [ " img " , " br " , " hr " ]; /* 不需要成对出现的标记 */
br.contain 
=   function (arr,it){
    
for ( var  i = 0 ,len = arr.length;i < len;i ++ ){
        
if (arr[i] == it){
            
return   true ;    
        }
    }
    
return   false ;
}
br.subArtc 
=   function (article,worldNum){
    
var  result  =  [];
    
/* 首先截取需要的字串 */
    
var  wcount  =   0 ;
    
var  startTags  =  [],endTags  =  [];
    
var  isInTag  =   false ;
    
for ( var  i = 0 ,len = article.length;i < len;i ++ ){
        
var  w  =  article[i];
        result.push(w);
        
if (w == " < " ){
            isInTag 
=   true ;    
        }
        
if ( ! isInTag){
            wcount
++ ;
            
if (wcount == worldNum){
                
break ;    
            }
        }
        
if (w == " > " ){
            isInTag 
=   false ;    
        }
    }
    
/* 对字串进行处理 */
    
var  j = 0 ;
    isInTag 
=   false ;
    
var  isStartTag  =   true ;
    
var  tagTemp  =   "" ;
    
while (j < i){
        w 
=  result[j];
        
if (isInTag){
            
if (w == " > "   ||  w == "   "   ||  w == " / " ){
                isInTag 
=   false ;
                
if (isStartTag){
                    startTags.push(tagTemp);    
                }
else {
                    endTags.push(tagTemp);    
                }
                tagTemp 
=   "" ;
            }
            
if (isInTag){
                tagTemp
+= w;    
            }
        }
        
if (w == " < " ){
            isInTag 
=   true ;
            
if (result[j + 1 ] == " / " ){
                isStartTag 
=   false ;
                j
++ ;
            }
else {
                isStartTag 
=   true ;    
            }
        }
        j
++ ;
    }
    
/* 剔除img,br等不需要成对出现的标记 */
    
var  newStartTags  =  [];
    
for ( var  x = 0 ,len = startTags.length;x < len;x ++ ){
        
if ( ! br.contain(br.spTags,startTags[x])){
            newStartTags.push(startTags[x]);
        }
    }
    
/* 添加没有的结束标记 */
    
var  unEndTagsCount  =  newStartTags.length  -  endTags.length;
    
while (unEndTagsCount > 0 ){
        result.push(
" < " );
        result.push(
" / " )
        result.push(newStartTags[unEndTagsCount
- 1 ]);
        result.push(
" > " );
        unEndTagsCount
-- ;
    }
    
return  result.join( "" );
};

 

 基本思路:

1.绕过标记,取得实际内容字数 ,如需要显示内容前100个字,绕过标记检索,得到第一百个字实际的索引。然后截取此索引前面的字串。

2.根据一得到的字串,得到这个字串中存在的开始标记和结束标记。注:此处的开始标记标识以"<"开通,且下一个字符不为"/"。

3.剔除2中 得到的开始标记中的不需要成对出现的标记。如br,img,hr等。

4.对比经过3处理的开始标记和2中得到的结束标记,没有配成对的在合适的位置为其配对。

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值