php 采集爬虫,php网络爬虫,实现采集功能

php实现实时获取当天天气小工具

//获取天气预报网站的网页内容

$html = file_get_contents("http://www.weather.com.cn/weather1d/101210101.shtml");

//正则表达式

$reg = ‘#hour3data.+?\[".+?,.+?,(?.+?),(?.+?),#‘;

//如果匹配成功,就输出温度相关的信息

if(preg_match($reg, $html, $mat)){

echo "今天".$mat[‘tianqi‘].",温度".$mat[‘wendu‘];

}

根据qq号获取昵称和头像

$url = "http://r.pengyou.com/fcg-bin/cgi_get_portrait.fcg?uins=1579715173";

$html = file_get_contents($url);

$reg = ‘#.+?\["(.+?)",.+?,.+?,.+?,.+?,.+?,"(.+?)"#‘;

if(preg_match($reg, $html, $mat)){

//由于防盗链,无法直接使用腾讯的头像链接,所以要先下载到本地

file_put_contents("1.jpg",file_get_contents($mat[1]));

echo "1.jpg%E2%80%98".$mat[2];

}

根据ip获取地址信息

$ip = "14.215.177.38";

$html = file_get_contents("http://ip.chinaz.com/".$ip);

$regex = ‘#

[\s\S]+?(.+?)[\s\S]+?

#‘;

if(preg_match($regex, $html, $mat)){

echo $mat[1];

}

从起点采集一本指定的小说所有的章节内容,合并到一个txt文件

$html = file_get_contents("http://book.qidian.com/info/1004608738");

$regex = ‘#

(.+?)[\s\S]+?#‘;

if(preg_match_all($regex, $html, $mats)){

foreach($mats[1] as $k => $v){

$html1 = file_get_contents("http:".$v);

$regex1 = ‘#

([\s\S]+?)
#‘;

//匹配内容

if(preg_match($regex1, $html1, $mat)){

$mat[1] = preg_replace(‘#<.>|\s+?#‘, "",$mat[1]);

$content = "\r\n".$mats[2][$k]."\r\n".$mat[1];

file_put_contents("1.txt", $content, FILE_APPEND);

} else {

echo "内容没有匹配成功";

}

echo $mats[2][$k]."\n";

}

}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值