php判断url是否为图片,睿智的小狗 - PHP判断一个URL是否为可用图片链接

754a3d45e370279cc52bfa9a89e48fd6.png

以下列举通过php判断链接类型的3种方法

方式一

直接正则匹配URL链接,是否是以.png,.gif,.jpg,.jpeg结尾的。preg_match('/.*(\.png|\.jpg|\.jpeg|\.gif)$/', $url);

这个是一个最简单的方式,但是不够精确,因为并不是所有的图片链接都是以图片名字+扩展名结尾的。

方式二

用CURL获取图片URL的response header

首先创建一个curl,并将头文件的信息,作为数据流输出$url = "http://*************"; //图片的链接地址

$ch = curl_init();

curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); //是否跟着爬取重定向的页面

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); //将curl_exec()获取的值以文本流的形式返回,而不是直接输出。

curl_setopt($ch, CURLOPT_HEADER, 1); // 启用时会将头文件的信息作为数据流输出

curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 5); //设置超时时间

curl_setopt($ch, CURLOPT_URL, $url); //设置URL

$content = curl_exec($ch);

$httpcode = curl_getinfo($ch, CURLINFO_HTTP_CODE); //curl的httpcode

$headerSize = curl_getinfo($ch, CURLINFO_HEADER_SIZE); //获取头大小

curl_close($ch);

此时content中包含头信息和图片的二进制内容,然后根据头的大小($headerSize)截取出头信息,剩下的就是图片的二进制内容了。$headers = substr($content, 0, $headerSize); //根据头大小截取头信息

头信息输出结构如下HTTP/1.1 200 OK

Server: JSP3/2.0.14

Date: Sun, 30 Jul 2017 06:54:47 GMT

Content-Type: image/jpeg

Content-Length: 152094

Connection: keep-alive

ETag: "7751852900776331536"

Last-Modified: Tue, 02 May 2017 10:33:16 GMT

Expires: Wed, 18 Jul 2018 06:25:38 GMT

Age: 879492

Cache-Control: max-age=31536000

Accept-Ranges: bytes

Error-Message: OK

Ohc-Response-Time: 1 0 0 0 0 0

可以看到里面有个Content-Type: image/jpeg,然后处理头信息,取出想要的内容$head_data=preg_split('/\n/',$headers); //逐行放入数组中

$head_data = array_filter($head_data); //过滤空数组

$headers_arr = [];

foreach($head_data as $val){ //按:分割开

list($k,$v) = explode(":",$val); //:前面的作为key,后面的作为value,放入数组中

$headers_arr[$k] = $v;

}

$img_type = explode("/",trim($headers_arr['Content-Type'])); //然后将获取到的Content-Type中的值用/分隔开

if ($httpcode == 200 && strcasecmp($img_type[0],'image') == 0) {//如果httpcode为200,并且Content-type前面的部分为image,则说明该链接可以访问成功,并且是一个图片类型的

$type = $img_type[1];

.............

} else {//否则........

............

}

注: curl_setopt($ch, CURLOPT_NOBODY,true); 可以设置只获取头信息,不要body

方式三

用PHP的get_headers() 函数,可以直接获取响应的头信息,但是相比于curl,不能设置超时时间。<?php

$url = 'http://www.example.com';

print_r(get_headers($url));

print_r(get_headers($url, 1));

?>

输出结果如下:Array

(

[0] => HTTP/1.1 200 OK

[1] => Date: Sat, 29 May 2004 12:28:13 GMT

[2] => Server: Apache/1.3.27 (Unix) (Red-Hat/Linux)

[3] => Last-Modified: Wed, 08 Jan 2003 23:11:55 GMT

[4] => ETag: "3f80f-1b6-3e1cb03b"

[5] => Accept-Ranges: bytes

[6] => Content-Length: 438

[7] => Connection: close

[8] => Content-Type: text/html

)

Array

(

[0] => HTTP/1.1 200 OK

[Date] => Sat, 29 May 2004 12:28:14 GMT

[Server] => Apache/1.3.27 (Unix) (Red-Hat/Linux)

[Last-Modified] => Wed, 08 Jan 2003 23:11:55 GMT

[ETag] => "3f80f-1b6-3e1cb03b"

[Accept-Ranges] => bytes

[Content-Length] => 438

[Connection] => close

[Content-Type] => text/html

)

同样地,利用2中的方法取出Content-Type进行判断即可。

一些问题

1,上面$headerSize = curl_getinfo($ch, CURLINFO_HEADER_SIZE); //获取头大小这一段获取的内容和$content = curl_exec($ch);获取内容完全一致,根本不需要这么写。

2,list($k,$v) = explode(":",$val); //前面的作为key,后面的作为value,放入数组中这一段,数组内含有null某些环境下会报错,很明显这个写法有问题。

可以加判断:if($v){

$headers_arr[$k] = $v;

}

当然这只是就事论事的解决,然而这并没有意义,因为:

3,既然已经用了$httpcode = curl_getinfo($ch, CURLINFO_HTTP_CODE); //curl的httpcode

就是说,可以使用curl_getinfo()函数获取CURL请求输出的相关信息,那么完全可以同样的获得想要的Content-Type,那么下面的代码就没有任何意义了(除非说是久违了联系代码~囧~)

4,最后这个($httpcode == 200 && strtolower($img_type[0]) == 'image')也非常丑陋。

重写:

因此就这个方法而言,应该这样写:$url = '...';

// 创建一个cURL资源

$ch = curl_init();

// 设置URL和相应的选项

curl_setopt($ch, CURLOPT_URL, $url); //设置URL

curl_setopt($ch, CURLOPT_HEADER, 1); // 将头文件的信息作为数据流输出

//curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); //是否跟着爬取重定向的页面,这一项不需要开启,因为我们判断的是链接本身,不是跳转后内容

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); //将curl_exec()获取的值以文本流(字符串)的形式返回,而不是直接输出。

curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 5); //设置超时时间

curl_setopt($ch, CURLOPT_NOBODY,true); //设置只获取header不获取body

// curl_exec($ch);抓取URL并把它传递给浏览器

$content = curl_exec($ch);

$http_code = curl_getinfo($ch, CURLINFO_HTTP_CODE); //curl的httpcode

$http_type = curl_getinfo($ch,CURLINFO_CONTENT_TYPE); //看看能不能直接或获取type

// 关闭cURL资源,并且释放系统资源

curl_close($ch);

$img_type = explode("/",$http_type); //将'Content-Type: image/jpeg'中的值用/分隔开

if ($http_code == 200 && strtolower($img_type[0]) == 'image') {

//判断该链接可以访问成功,并且是一个图片类型

echo "是可用图片链接";

} else {

//否则........

echo "非可用图片链接";

}

当然,这样就完美了吗?很明显不是的。既然我们只是要判断是否为可用图片链接,直接取出$content = curl_exec($ch);正则一下不就行了。

片段如下$is_img = preg_match('/image/i', $content);//直接忽略大小写匹配'image'

if ($http_code == 200 && $is_img) {

echo "是可用图片链接";

}

当然http_code也可以直接正则匹配。

这个例子告诉我,网上搜索的内容质量难以保障,还是要自己多写、多思考才行。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值