PHP抓取网页内容汇总

①、使用php获取网页内容
http://hi.baidu.com/quqiufeng/blog/item/7e86fb3f40b598c67d1e7150 .html
header("Content-type: text/html; charset=utf-8");
1、
$xhr = new COM("MSXML2.XMLHTTP");
$xhr->open("GET","http://localhost/xxx.php?id=2",false);
$xhr->send();
echo $xhr->responseText

2、file_get_contents实现
<?php
$url="http://www.blogjava.net/pts";
echo file_get_contents( $url );
?>

3、fopen()实现
<?
if ($stream = fopen('http://www.sohu.com', 'r')) {
       // print all the page starting at the offset 10
       echo stream_get_contents($stream, -1, 10);
       fclose($stream);
}

if ($stream = fopen('http://www.sohu.net', 'r')) {
       // print the first 5 bytes
       echo stream_get_contents($stream, 5);
       fclose($stream);
}
?>

②、使用php获取网页内容
http://www.blogjava.net/pts/archive/2007/08/26/99188.html
简单的做法:
<?php
$url="http://www.blogjava.net/pts";
echo file_get_contents( $url );
?>
或者:
<?
if ($stream = fopen('http://www.sohu.com', 'r')) {
       // print all the page starting at the offset 10
       echo stream_get_contents($stream, -1, 10);
       fclose($stream);
}

if ($stream = fopen('http://www.sohu.net', 'r')) {
       // print the first 5 bytes
       echo stream_get_contents($stream, 5);
       fclose($stream);
}
?>

③、PHP获取网站内容,保存为TXT文件源码
http://blog.chinaunix.net/u1/44325/showart_348444.html
<?
$my_book_url='http://book.yunxiaoge.com/files/article/html/4/4550/index.html';
ereg("http://book.yunxiaoge.com/files/article/html/[0-9]+/[0-9]+/",$my_book_url,$myBook);
$my_book_txt=$myBook[0];
$file_handle = fopen($my_book_url, "r");//读取文件
unlink("test.txt");
while (!feof($file_handle)) { //循环到文件结束
       $line = fgets($file_handle); //读取一行文件
       $line1=ereg("href="[0-9]+.html",$line,$reg); //分析文件内部书的文章页面
             $handle = fopen("test.txt", 'a');
     if ($line1) {
         $my_book_txt_url=$reg[0]; //另外赋值,给抓取分析做准备
     $my_book_txt_url=str_replace("href="","",$my_book_txt_url);
           $my_book_txt_over_url="$my_book_txt$my_book_txt_url"; //转换为抓取地址
           echo "$my_book_txt_over_url</p>"; //显示工作状态
           $file_handle_txt = fopen($my_book_txt_over_url, "r"); //读取转换后的抓取地址
           while (!feof($file_handle_txt)) {
             $line_txt = fgets($file_handle_txt);
             $line1=ereg("^&nbsp.+",$line_txt,$reg); //根据抓取内容标示抓取
             $my_over_txt=$reg[0];
             $my_over_txt=str_replace("&nbsp;&nbsp;&nbsp;&nbsp;","       ",$my_over_txt); //过滤字符
             $my_over_txt=str_replace("<br />","",$my_over_txt);
             $my_over_txt=str_replace("<script language="javascript">","",$my_over_txt);
             $my_over_txt=str_replace("&quot;","",$my_over_txt);
             if ($line1) {
                 $handle1=fwrite($handle,"$my_over_txt\n"); //写入文件
             }
           }
       }
}
fclose($file_handle_txt);
fclose($handle);
fclose($file_handle); //关闭文件
echo "完成</p>";
?>
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值