php数据采集(1)

新建单独脚本,如下,浏览器运行即可
页面内容如下,
https://so.gushiwen.org/authors/authorvsw_a7900666497fA1.aspx
一个网页,有多篇文章,

另一篇博客,会介绍 当一个网页只有一篇文章的情况

<?php 

header('Content-type:text/html;charset=utf-8');
//连接数据库
$link  = @mysql_connect('localhost','root','root');
//判断连接是否成功
if(mysql_errno()){
	exit('数据库连接失败'.mysql_error());
}
//选择数据库
mysql_select_db('ceshidaoru');     

// 我要遍历一个文件夹

$jid = substr(__FILE__,strrpos(__FILE__,'\\')+1,strrpos(__FILE__,'.')-strrpos(__FILE__,'\\')-1);
showDir("E:/my/20190110/xinqiji");
function showDir( $filedir ){
    if(is_dir($filedir)){
        //打开目录  
        $dir = @ dir($filedir);  
        while (($file = $dir->read())!==false){  
             if(is_dir($filedir."/".$file) AND ($file!=".") AND ($file!="..")) {  
                   showDir($filedir."/".$file);  
              } else {
                  if ($file != "." and $file != ".."){  
                      getDBData($filedir.'/'.$file,$file);
                       echo  $filedir.'/'.$file.'<br>';
                       //echo $file;
                 }  
              }  
         }
        $dir->close();
    }else{
        getDBData($filedir);
        echo  $filedir;
    }
}  

function getDBData($filename,$file) //file指文件名100000.HTML
{
 
	preg_match('/(\d{0,20})\.aspx/',$file,$ids);		
	$urls=file_get_contents($filename); 

	// 获取一首诗词
	preg_match_all('/<p><a style=([\s\S]*?)<div class="tool">/',$urls,$match);	 

	foreach($match[1] as $val)
	{
		// 获取标题
		preg_match('/target="_blank"><b>([\s\S]*?)<\/b>/',$val,$title);
		preg_match('/<div class="contson" id="[\s\S]*?">([\s\S]*?)<\/div>/',$val,$content);

		// 插入数据库
		$sql2="insert into `caiji`(title,content) values('$title[1]','$content[1]')";

		$res = mysql_query($sql2);
	}
}
?>
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值