1、PHP采集程序构建基本步骤
2、设计PHP采集入库程序UML
3、 PHP采集入库用到的知识点
4、 进入开发阶段

file_get_contents() 远程文件获取函数,用来获取远程页面内容

preg_match_all()进行全局正则表达式匹配 用于匹配列表

preg_match   ()进行正则表达式匹配 用于匹配终端

preg_replace ()进行正则表达式替换 用于过滤终端

复习正则表达式 、 正则修正符用法。


PHP开发通用采集入库程序一

 

<?php

$con .= file_get_contents("http://it.sohu.com/7/1002/17/column203661721_3259.shtml");

$preg = "#<h1>&middot;<a href='(.*)' target='_blank'>(.*)</a><span>#";

preg_match_all($preg, $con, $arr);

//print_r($arr);

foreach($arr[1] as $id=>$v){

  echo "<a href=$v>".$v."</a> ".$arr[2][$id]."<br>";
 
}

?>

 

<?php
$con = file_get_contents("http://it.sohu.com/20100507/n271970537.shtml");

 echo zz("#<title>(.*)</title>#i",$con);

 echo zz("#<!-- 正文 st -->(.*)<!-- 正文 end -->#iUs",$con);


function zz($preg,$con,$num=1){
preg_match($preg, $con, $arr);
return $arr[$num];
}
?>