php爬虫教程(一) 简单的页面抓取

原创 2016年08月30日 15:07:07

欢迎加入,新群号码:99640845


最近朋友抓取点数据,写了几个抓取数据的脚本。

主要功能是,分别抓起x了么,美x,x度外卖的餐厅和菜品数据 ,后期我把代码分享出来。

今天就先说说简单的页面抓取

-------------------

php的抓取主要采用了 CURL一个非常强大的开源库。可以自行百度一下。

// 1. 初始化
 $ch = curl_init();
 // 2. 设置选项,包括URL
 curl_setopt($ch,CURLOPT_URL,"http://www.ishenshou.cn");//我弄的一个小论坛 ==
 curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
 curl_setopt($ch,CURLOPT_HEADER,0);
 // 3. 执行并获取HTML文档内容
 $output = curl_exec($ch);
 if($output === FALSE ){
 echo "CURL Error:".curl_error($ch);
 }
 // 4. 释放curl句柄
 curl_close($ch);

这样就可以简单的把一个页面全部的源码获取过来,当然只是前端页面的代码。


看过例子我想所有人应该都会觉得蛮简单的,事实上也正是如此。

抓取一个页面的信息其实就是模拟访问然后获取它页面上所有的信息,通过正则表达式匹配出想要的信息。

而有的平台都是把数据通过json的方式直接发送给前端,这样对于抓取数据来说更加简单 只要根据相应的接口规则发起请求就可以直接获取json数据就不用正则匹配了。

x了么,美x,x度外卖的餐厅数据都是通过接口直接获取json抓到的 餐厅信息是通过正则匹配的。


总结:首先你要知道正则表达式,然后你要知道curl的使用(最好有一个封装好的curl的工具函数),最好有一个抓包工具我用的是火狐自带的Firebug 就很好用


版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

静态页面的抓取(学习简单爬虫)

圣诞节快乐(づ ̄ 3 ̄)づ~~~在这个半放假的日子里,人也变得慵懒起来,在MOOC下学习了静态页面的简单爬虫(传送门:http://www.imooc.com/learn/563),干货满满啊~~所以...

php爬虫教程(四)抓取数据并进行处理

经过链接的分析,数据的分析,再加上规则的验证。 很容易的我们就get到了我们打算抓取到的数据, so,我们就可以做我们想做的事情了。例如: <?php header("Content-type:tex...

php爬虫教程(五)提高爬虫抓取效率

多进程抓取

网络爬虫 页面内容抓取

  • 2015-08-13 17:29
  • 27.78MB
  • 下载

Scrapy定向爬虫教程(三)——爬取多个页面

本节内容 本部分所实现的功能是,批量的爬取网页信息,不再是像以前那样只能下载一个页面了。也就是说,分析出网页的url规律后,用特定的算法去迭代,达到把整个网站的有效信息都拿下的目的。 因为本部...

把玩之糗事百科简单页面信息爬虫

原文链接:静觅 » Python爬虫实战一之爬取糗事百科段子 这个例子是对糗事百科的简单页面爬虫,但是由于糗事百科已经改版,或许运行不成功,主要是为了学习下爬虫完整过程。后序会有改正:请等待。。...

简单的php注册页面

内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)