栈解析html文件,利用栈将html源码解析为节点树

/// 如何利用栈将html解析成节点树

/// 首先html是由一个个节点组成,最大的节点为节点   她有两个子节点

/// 首先我们将压入栈中 再将

压入栈中 遇到出栈  压入栈中 遇到 出栈 最终

/// 出栈 可以看出 出栈的一定是栈顶元素的子节点

/// 本程序假定html完全规范

/// todo  解决标签未闭合问题

/// todo  根据标签名访问

///       根据id访问

///       根据class访问

///      innerHtml 和 innerText

$tree_file = fopen("tree_file","w");

fclose($tree_file);

$siteurl="http://www.cnblogs.com/poissonnotes/archive/2010/05/28/1745996.html";

$str=get_content_by_url($siteurl);

$pattern="/<.>/";

$deep=0;

$global_false=true ;

$result=array();

$queue_id=0;

if(preg_match_all($pattern,$str,$matches))

{

$count=count($matches[0]);

$matches=$matches[0];

$queue=array();

$error = fopen("string_tagss","a");

for($i=0;$i

{

$temptag = $matches[$i];

$node["Id"]=$i;

$node["ChildId"]=array();

$node["html_tag"]=$temptag;

/// 如果是单标签

if(is_single_tag($temptag))

{

//echo "this is a single tag:    ";

//echo $temptag."\n";

$str_deep=make_string($deep);

fwrite($error,$str_deep."\t".$temptag."\n");

if(!empty($queue))

{

$queue[count($queue)-1]["ChildId"][]=$queue_id;

}

$queue_id++;

$result[]=$node;

continue ;

}

/// 如果是结束标签

if(is_end_tag($temptag))

{

$temp_node = array_pop($queue);

$queue[count($queue)-1]["ChildId"][]=$queue_id ;  // 出队的节点一定是栈顶元素的子孩子

$queue_id++;

$result[]=$temp_node;

}

else

{

/// 如果是开始标签

$str_deep=make_string($deep);

fwrite($error,$str_deep."\t".$temptag."\n");

$queue[] = $node;

$deep++;

}

}

if($global_false)

{

echo "ok\n" ;

}

else

{

echo "error\n" ;

}

//制作关系图谱  不包含结束标签

//

//    

//            ............

//        ............

//    

//              ............

//              ............

$deep = 0;

make_tree($result,$result[count($result)-1],$deep);

}

function is_single_tag($test_tag)

{

$single_tags=array("meta","img","link","input","!DOCTYPE","area","base","basefont","embed","hr","br");

$single_tag_string="(";

foreach($single_tags as $single_tag)

{

$single_tag_string=$single_tag_string.$single_tag."|"  ;

}

$single_tag_string=$single_tag_string.")";

$single_tag_string=str_replace("|)",")",$single_tag_string);

$pattern="/\/ i" ;

if(preg_match($pattern,$test_tag))

{

return true ;

}

return false ;

}

function is_end_tag($test_tag)

{

$pattern="/\/" ;

if(preg_match($pattern,$test_tag))

{

return true ;

}

return false ;

}

function is_exist_start_tag($queue,$temptag)

{

$end_string=str_replace("/","",$temptag);

$end_string=preg_replace("/\s*/","",$end_string);

$end_string=strtolower($end_string);

$count=count($queue);

echo $count."\n";

var_dump($queue);

for($i=$count-1;$i>=0;$i--)

{

echo $i."\n";

$string = $queue[$i]["html_tag"];

$string = preg_replace("/()/",'$1$2$3',$string);

if(strtolower($string) == strtolower($end_string))

{

return true;

}

}

return false ;

}

function is_pear_tag($start_tag,$temptag)

{

$start_string=preg_replace("/()/",'$1$2$3',$start_tag);

$end_string=str_replace("/","",$temptag);

$end_string=preg_replace("/\s*/","",$end_string);

if(strtolower($start_string) == strtolower($end_string))

{

return true ;

}

else

{

return false ;

}

}

function make_string($deep)

{

$temstr="";

for($i=0;$i

$temstr=$temstr."-";

return $temstr;

}

function judge_tag($last_tag,$temptag)

{

return false;

// 这里做一个判断 判断上一个标签是否能嵌套这个标签 比如

//

不嵌套

//

不嵌套

//

不嵌套

//

不嵌套

//

//

不嵌套

//

  • 不嵌套

//

  1. 不嵌套

//

不能嵌套

}

function get_content_by_url($site_url)

{

$ch=curl_init($site_url);

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

curl_setopt($ch, CURLOPT_TIMEOUT, 60);

curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 10);

curl_setopt($ch, CURLOPT_ENCODING, "gzip");

$content=curl_exec($ch);

$content = str_replace("\r\n","",$content);

$content = str_replace("\n\r","",$content);

$content = str_replace("\n","",$content);

$content = str_replace("\r","",$content);

$content = preg_replace("//is","",$content);

$content = preg_replace("//is","",$content);

$content = preg_replace("/

$content = preg_replace("/

$errores = fopen("baidu","w");

fwrite($errores,$content) ;

fclose($errores);

return $content ;

}

function make_tree($result,$node,$deep)

{

// 制作前缀 使得显示的层次分明

$str="" ;

for($i=0;$i<$deep;$i++)

{

$str=$str."--";

}

echo $str;

echo $node["html_tag"]."\n";

$write_str = $str.$node["html_tag"]."\n";

$tree_file = fopen("tree_file","a");

fwrite($tree_file,$write_str);

fclose($tree_file);

$deep++;

if(!empty($node["ChildId"]))

{

foreach($node["ChildId"] as $Child)

{

make_tree($result,$result[$Child],$deep) ;   ///递归

}

}

else

{

return ;

}

}

?>

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值