PHP获取网络资源心得

获取网络资源心得

file_get_contents()
fopen()
curl()
都可以用来获取网络资源, 都可以设置请求方式, 请求头stream_context_create.甚至发送POST请求.
file_get_contents和fopen也可以用来读取本地资源
url作为网络请求, 更为复杂也更为专业.

file_get_contents

# 获取请求的常用参数 ,但是实际上用的也就是第一个路径和第三个参数请求头, 第二个直接置空.
string file_get_contents ( string $filename [, bool $use_include_path = false , resource $context ] )
$filename URL或文件名
$use_include_path 
$context stream_context_create();创建资源流上下文,通过设置资源流, 来制定请求头.

注意:
    如果想要修改请求头, 或者将请求方式改为POST之类的操作. 
    可以通过第三个参数, stream_context_create(数组);创建资源流上下文的形式设置http请求头.
    请求头, 以KV数组的形式组建在$head= stream_context_create();中, 然后将$head 作为第三个参数即可

案例:
    设置POST请求
    
    $data = array(
    'foo'=>'bar',
    'baz'=>'boom',
    'site'=>'www.example.net',
    'name'=>'nowa magic');
	
	# 将数组格式化为查询字符串
    $data = http_build_query($data);
	
    //$postdata = http_build_query($data);
    $options = array(
    	'http' => array(
    		'method' => 'POST',
    		'header' => 'Content-type:application/x-www-form-urlencoded',
    		'content' => $data
    		//'timeout' => 60 * 60 // 超时时间(单位:s)
    	)
    );
	
	$url = "http://test.demo.com/test.php";
	$context = stream_context_create($options);
	$result = file_get_contents($url, false, $context);
	
	echo $result;
        
        

案例:
    发送默认的GET请求

    # file_get_contents请求失败了之后会爆出一个错误同时错误无法捕捉,影响进程.
    # 所以要用@符来抑制, 同时将结果付给一个变量.
    # 通过对这个变量是否为false判断是否获取成功
    function getResource($url= '', $num=0)
    {
        $tiker = 0;

        # 准备请求头
   $opts = [
    'http' => [
        'method' => 'GET',  // 请求方式GET
        'timeout' => 1,     // 设置超时时间,解决file_get_contents()请求不到数据,一卡很久的问题
        'header' => "Host: www.baidu.com\r\n".
        "User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10.14; rv:67.0) Gecko/20100101 Firefox/67.0\r\n".
        "Accept-Language: zh-CN,zh;q=0.9,en;q=0.8\r\n".
        "Cookie: BAIDUID=2BFC905A528EEF2E2B6BD271322C8A9A:FG=1;\r\n",
    ],
];
        # 通过设置资源上下流,来设置HTTP请求头.
        # 如果请求失败反复请求,$num次
        # 请求必须放在while中, 如果只放变量不生效. 应为变量已经生成了, 不是请求步骤.
        while ($tiker < $num && ($data = @file_get_contents($url, '', stream_context_create($opts))) == false))
        {
          $tiker++;
        }

        # 处理结果是否正常
        $data || exit("连续{$num}次请求, 依然获取IP信息失败". PHP_EOL);

        # 返回数据
        return $data;
    }

fopen

<?php

$opts = [
    'http'   => [
    'method' => 'GET',
    'header' => "Host: www.baidu.com\r\n".
    "User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10.14; rv:67.0) Gecko/20100101 Firefox/67.0\r\n".
    "Accept-Language: zh-CN,zh;q=0.9,en;q=0.8\r\n".
    "Cookie: BAIDUID=2BFC905A528EEF2E2B6BD271322C8A9A:FG=1;\r\n",
    ],
];
// 设置请求头, 组建文件流
$context = stream_context_create($opts);
// 发送请求,同时设置请求头
$fp = fopen('http://www.baidu.com', 'r', false, $context);
// 函数输出文件指针处的所有剩余数据
fpassthru($fp);
fclose($fp);

curl

常用函数

PHP cURL 函数

函数描述
curl_close()关闭一个cURL会话。
curl_copy_handle()复制一个cURL句柄和它的所有选项。
curl_errno()返回最后一次的错误号。
curl_error()返回一个保护当前会话最近一次错误的字符串。
curl_escape()返回转义字符串,对给定的字符串进行URL编码。
curl_exec()执行一个cURL会话。
curl_file_create()创建一个 CURLFile 对象。
curl_getinfo()获取一个cURL连接资源句柄的信息。
curl_init()初始化一个cURL会话。
curl_multi_add_handle()向curl批处理会话中添加单独的curl句柄。
curl_multi_close()关闭一组cURL句柄。
curl_multi_exec()运行当前 cURL 句柄的子连接。
curl_multi_getcontent()如果设置了CURLOPT_RETURNTRANSFER,则返回获取的输出的文本流。
curl_multi_info_read()获取当前解析的cURL的相关传输信息。
curl_multi_init()返回一个新cURL批处理句柄。
curl_multi_remove_handle()移除curl批处理句柄资源中的某个句柄资源。
curl_multi_select()等待所有cURL批处理中的活动连接。
curl_multi_setopt()设置一个批处理cURL传输选项。
curl_multi_strerror()返回描述错误码的字符串文本。
curl_pause()暂停及恢复连接。
curl_reset()重置libcurl的会话句柄的所有选项。
curl_setopt_array()为cURL传输会话批量设置选项。
curl_setopt()设置一个cURL传输选项。
curl_share_close()关闭cURL共享句柄。
curl_share_init()初始化cURL共享句柄。
curl_share_setopt()设置一个共享句柄的cURL传输选项。
curl_strerror()返回错误代码的字符串描述。
curl_unescape()解码URL编码后的字符串。
curl_version()获取cURL版本信息。
    CURLOPT_CONNECTTIMEOUT
    CURLOPT_RETURNTRANSFER
    CURLOPT_HTTPGET
    CURLOPT_POSTFIELDS
    CURLOPT_CUSTOMREQUEST
    这个是干嘛的?http_build_query
    curl提交表单怎么搞?
    表单提交需要设置
    $param=array
     curl_setopt($ch, CURLOPT_POSTFIELDS,http_build_query($params));

1. Curl获得第三方的AccessToken如 微信和钉钉

    if ($_SERVER['REQUEST_METHOD'] == 'POST') {
    $url = 'https://oapi.dingtalk.com/gettoken?corpid=id&corpsecret=secrect';
    $header = ['Content-Type: multipart/form-data','Content-length:'. strlen($file),其他参数];
    $file = __DIR__ .'/0634134726bc5b8b.jpg';
    # 上传文件 >=PHP5.6
    $data = array('media'=>new CURLFile($file,'image/jpg','media')); # 此处media可以用以来变更实际文件名, 但实际意义并不大.
    $imgdata = array('media' => $data); # media作为上传文件的文件名
    # 或者也可以使用
    $cfile = curl_file_create('resource/test.png','image/png','testpic');#此处testpic可以用以来变更实际文件名, 但实际意义并不大.
    $imgdata = array('media' => $cfile);# media作为上传文件的文件名
    
    # 初始化curl
    $ch = curl_init();
    # 设置请求的URL路径
    curl_setopt($ch, CURLOPT_URL, $url);
    # 是否显示路径
    curl_setopt($ch, CURLOPT_HEADER, false);
    # 是否直接输出在页面上 true 不在页面直接输出
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    /*
    * https请求需要添加下面两行代码
    */
    # false不验证对等证书 
    curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
    # 为1:检查服务器ssl证书是否存在一个公用名 为2:检查公用名是否存在,并且是否和提供的主机名匹配 为0:不检查
    curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 0);
    # 设置请求方式 ture =post false =get
    curl_setopt($ch, CURLOPT_POST, false);
    # 设置header头为multipart/form-data
    curl_setopt($ch, CURLOPT_HTTPHEADER, $header);
    
    
    # 设置需要上传的post文件 如果需要上传文件 >= PHP5.6
    curl_setopt($ch, CURLOPT_POSTFIELDS, $imgdata);
    
    
    # 执行
    $token = curl_exec($ch);
    # 判断错误
    if (curl_errno($ch)) {
    return curl_error($ch);
    }
    # 关闭资源
    curl_close($ch);
    
    
    
    # 处理结果
    if ($tokenArr = json_decode($token, true)['errcode'] != 0) {
    Msg::ajax($tokenArr['errmsg']);
    }
    # 写入redis
    $redis = Db_Redis::instance();
    $redis->set('AccessToken', $token);
    }
    
    2. 其他场景中的常用设置
    
    # 设置UserAgent头
    curl_setopt($curl, CURLOPT_USERAGENT, "Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)");
    # 设为 TRUE 时将开启新的一次 cookie 会话。它将强制 libcurl 忽略之前会话时存的其他 cookie。
        curl_setopt($ch, CURLOPT_COOKIESESSION, TRUE);
    
    # 获得请求头
    PHP 5.1.3版以上支持用curl_getinfo函数来获取请求头
    具体需要先设置 curl_setopt($s, CURLINFO_HEADER_OUT, true);
    然后在请求发生后用 curl_getinfo( $ch, CURLINFO_HEADER_OUT)

分段下载

如果通过网络下载的时候,文件过大,可以通过PHP的ob_start等函数从缓冲区中,根据内存情况不断的从内存中拿出数据.存储在本地

PHP的curl_multi实现并发

作者:飞鸿影~

出处:http://52fhy.cnblogs.com/

普通请求

curl_normal.php

<?php 
$srart_time = microtime(TRUE);

$chArr=[];

//创建多个cURL资源
for($i=0; $i<10; $i++){
    $chArr[$i]=curl_init();
    curl_setopt($chArr[$i], CURLOPT_URL, "http://www.52fhy.com/test.json");
    curl_setopt($chArr[$i], CURLOPT_RETURNTRANSFER, 1);
    curl_setopt($chArr[$i], CURLOPT_TIMEOUT, 1);
    $result[] = curl_exec($chArr[$i]);
    echo "running ";
}

// print_r($result);

$end_time = microtime(TRUE);
echo sprintf("use time:%.3f s", $end_time - $srart_time);

?> 

use time:0.830 s

curl_multi并发

curl_multi.php

<?php 
$srart_time = microtime(TRUE);

$chArr=[];

//创建多个cURL资源
for($i=0; $i<10; $i++){
    $chArr[$i]=curl_init();
    curl_setopt($chArr[$i], CURLOPT_URL, "http://www.52fhy.com/test.json");
    curl_setopt($chArr[$i], CURLOPT_RETURNTRANSFER, 1);
    curl_setopt($chArr[$i], CURLOPT_TIMEOUT, 1);
}

$mh = curl_multi_init(); //1 创建批处理cURL句柄

foreach($chArr as $k => $ch){      
    curl_multi_add_handle($mh, $ch); //2 增加句柄
}

$active = null; 

//待优化点:
//在$active > 0,执行curl_multi_exec($mh,$active)而整个批处理句柄没有全部执行完毕时,系统会不停地执行curl_multi_exec()函数。
do{
    echo "running ";
    curl_multi_exec($mh, $active); //3 执行批处理句柄
}while($active > 0); //4

foreach($chArr as $k => $ch){ 
    $result[$k]= curl_multi_getcontent($ch); //5 获取句柄的返回值
    curl_multi_remove_handle($mh, $ch);//6 将$mh中的句柄移除
}

curl_multi_close($mh); //7 关闭全部句柄 

// print_r($result);

$end_time = microtime(TRUE);
echo sprintf("use time:%.3f s", $end_time - $srart_time);

?> 

use time:0.259 s

curl_multi并发优化:curl_multi_select

在上个示例里当$active > 0时,执行curl_multi_exec($mh,$active)而整个批处理句柄没有全部执行完毕时,系统会不停地执行curl_multi_exec()函数。这样可能会轻易导致CPU占用很高。

进行改动的方式是应用curl函数库中的curl_multi_select()函数,其函数原型如下:

int curl_multi_select ( resource $mh [, float $timeout = 1.0 ] )

阻塞直到cURL批处理连接中有活动连接。成功时返回描述符集合中描述符的数量。失败时,select失败时返回-1,否则返回超时(从底层的select系统调用)。 我用们curl_multi_select()函数来达到没有需要读取的程序就阻塞住的目的。

下面是优化部分的代码:

curl_multi_select.php

$active = null; 

do{
    echo "running ";
    $mrc = curl_multi_exec($mh, $active); //3 执行批处理句柄
}while ($mrc == CURLM_CALL_MULTI_PERFORM); //4

//本次循环第一次处理$mh批处理中的$ch句柄,并将$mh批处理的执行状态写入$active ,当状态值等于CURLM_CALL_MULTI_PERFORM时,表明数据还在写入或读取中,执行循环,当第一次$ch句柄的数据写入或读取成功后,状态值变为CURLM_OK,跳出本次循环,进入下面的大循环之中。

//$active 为true,即$mh批处理之中还有$ch句柄正待处理,$mrc==CURLM_OK,即上一次$ch句柄的读取或写入已经执行完毕。
while ($active && $mrc == CURLM_OK) { 
    if (curl_multi_select($mh) != -1) {//$mh批处理中还有可执行的$ch句柄,curl_multi_select($mh) != -1程序退出阻塞状态。
        do {
            $mrc = curl_multi_exec($mh, $active);//继续执行需要处理的$ch句柄。
        } while ($mrc == CURLM_CALL_MULTI_PERFORM);
    }
}

这样执行的好处是$mh批处理中的$ch句柄会在读取或写入数据结束后($mrc==CURLM_OK),进入curl_multi_select($mh)的阻塞阶段,而不会在整个$mh批处理执行时不停地执行curl_multi_exec,白白浪费CPU资源。

运行结果: use time:0.325 s

耗时并没有多少改变,只是性能提高了。

curl_multi并发优化:rolling

上面的例子还存在优化的空间, 优化的方式时当某个URL请求完毕之后尽可能快的去处理它, 边处理边等待其他的URL返回, 而不是等待那个最慢的接口返回之后才开始处理等工作, 从而避免CPU的空闲和浪费。

仅贴出修改部分:

curl_multi_rolling.php


$active = null; 

do {
    while (($mrc = curl_multi_exec($mh, $active)) == CURLM_CALL_MULTI_PERFORM) ;

    if ($mrc != CURLM_OK) { break; }

    // a request was just completed -- find out which one
    while ($done = curl_multi_info_read($mh)) {

        // get the info and content returned on the request
        $info = curl_getinfo($done['handle']);
        $error = curl_error($done['handle']);
        $result[] = curl_multi_getcontent($done['handle']);
        // $responses[$map[(string) $done['handle']]] = compact('info', 'error', 'results');

        // remove the curl handle that just completed
        curl_multi_remove_handle($mh, $done['handle']);
        curl_close($done['handle']);
    }

    // Block for data in / output; error handling is done by curl_multi_exec
    if ($active > 0) {
        curl_multi_select($mh);
    }

} while ($active);

use time:0.267 s

参考

1、PHP模拟发送POST请求之五curl基本使用和多线程优化
http://www.cnblogs.com/zhenbianshu/p/4935679.html
2、Rolling cURL: PHP并发最佳实践
https://www.oschina.net/question/54100_58279
3、curl_multi_select解决curl_multi网页假死问题
http://www.webkaka.com/tutorial/php/2013/102844/

转载于:https://my.oschina.net/chinaliuhan/blog/3064510

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值