php采集代码curl,php curl函数采集网页程序代码

curl来抓取网页内容是一个性能比较好的函数了,我们通常会使用它来快速模仿用户去访问我们要抓取的网页了,下面看一个例子有兴趣的朋友可进入参考。

早上想写了一个抓取是京东618魅族专题页的抓取,然后想着自动下单购买,尼玛,算了,太多了,写到判断是否开始了,商品价格进行了变化,后边工程量有点大就懒的写了,如果要完善的话就需要写模拟登陆(这个不难)加入购物车,下单,下单的时候判断一下价格,如果价格个官方优惠价格相同就下单,不同就接着去抓。算了,懒的写了。下边是部分代码

 代码如下复制代码

$cookie_file = dirname(__FILE__)."/jd.cookie";

//专题首页url

$indexurl = 'http://sale.jd.com/act/BOxFsKPGNZwpet4.html';

//获取专题页到产品详情的地址

$indexstr = get($indexurl);

//var_dump($indexstr);exit;

preg_match_all('/

$tmp = pathinfo($data[1][0]);

$pinfo['id'] = $tmp['filename'];

$pinfo['url'] = $data[1][0];

unset($tmp,$data);

$pinfo = getPrice($pinfo['id']);

if($pinfo['mainproduct']['price'] == 1799){

addcar();

}else{

echo "还没有开始抢购";

}

function get($url,$flag=true){

global $cookie_file;

$headerArray = array(

"content-type: application/x-www-form-urlencoded;charset=UTF-8",

);

//echo $cookie_file;exit;

$ch = curl_init();

curl_setopt($ch,CURLOPT_URL,$url);

curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);

curl_setopt($ch,CURLOPT_USERAGENT,'"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0"');

curl_setopt($ch,CURLOPT_HTTPHEADER,$headerArray);//设置头信息

curl_setopt($ch,CURLOPT_COOKIEFILE,$cookie_file);

curl_setopt($ch,CURLOPT_COOKIEJAR,$cookie_file);

$return = curl_exec($ch);

curl_close($ch);

if($flag)$return = gzdecode($return);

return $return;

}

function getPrice($id){

$priceUrl = "http://rs.jd.com/accessorie/newServiceWhite.jsonp?sku=".$id;

$data = json_decode(get($priceUrl,false),true);

return $data;

}

function addcar(){

global $pinfo;

$addurl = "http://gate.jd.com/InitCart.aspx?pid=".$pinfo['mainproduct']['sku']."&pcount=1&ptype=1";

echo get($addurl,false);

}

php 在curl抓取的时候出现乱码

用站长工具查看我们抓取的网而不是使用了gzip压缩了,如果有返回"Accept-Encoding:gzip, deflate" 就是打开了gzip了,我们只要如下操作

 代码如下复制代码

$res=curl_exec($ch1);

if(!empty($res)){ //save capcha

echo gzdecode($res);

}

GBK或者UTF8汉字之类的乱码

 代码如下复制代码

mb_convert_encoding($str, 'utf-8', 'GBK,UTF-8,ASCII');就行了

我们设置页面为GBK兼容GB2312,GB2312是GBK的子集,所有GB2312编码的用GBK都能正确解出来

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值