php 采集js,php采集与js和css

php采集过程中,对页面的某些无用信息或有用信息需要进行过滤。这里以js和css为例。如一些站点的js文件可能不是我们想要的,而别人的css样式可能又是你所机要的。现以两者为例说下php下的实现。

1、删除HTML中的JS部分

js在html的标记为 ,根据该规则,可以通过下面的代码实现过滤删除:

function delJS($html) {

$search = '~~si';

return preg_replace($search,'',$html);

}

$html = file_get_contents('html/test.html');

echo delJS($html);

?>

2、采集css文件

采集css的方法,同样类推适用于图片类的采集。此处分成了两部分,一个是前端html文件,提示提交框,用于输入要采集的页面url,提交后交给后面的php去处理。当然也可以一个php去完成,具体代码如下:

html前端展示:

php获取页面中的所有css文件名:

if($_GET) {

$url= $_GET['q'];

$data = file_get_contents($url); //http://www.qq.com

$preg = '//i';

preg_match_all($preg,$data,$css_data,PREG_SET_ORDER);

echo '

  1. ';

foreach ( $css_data as $v){

echo '

';

echo $v[2].'
';

echo '

';

}

echo '

';

}

?>

获取到所有css文件名列表,所有的一切就都水到渠成了。可能通过php调用shell进行wget或curl,也可以通过的自身的file_get_contents或curl相关函数下载css文件的内容并保存到相应的位置。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值