php爬虫教程(一) 简单的页面抓取

原创 2016年08月30日 15:07:07

欢迎加入,新群号码:99640845


最近朋友抓取点数据,写了几个抓取数据的脚本。

主要功能是,分别抓起x了么,美x,x度外卖的餐厅和菜品数据 ,后期我把代码分享出来。

今天就先说说简单的页面抓取

-------------------

php的抓取主要采用了 CURL一个非常强大的开源库。可以自行百度一下。

// 1. 初始化
 $ch = curl_init();
 // 2. 设置选项,包括URL
 curl_setopt($ch,CURLOPT_URL,"http://www.ishenshou.cn");//我弄的一个小论坛 ==
 curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
 curl_setopt($ch,CURLOPT_HEADER,0);
 // 3. 执行并获取HTML文档内容
 $output = curl_exec($ch);
 if($output === FALSE ){
 echo "CURL Error:".curl_error($ch);
 }
 // 4. 释放curl句柄
 curl_close($ch);

这样就可以简单的把一个页面全部的源码获取过来,当然只是前端页面的代码。


看过例子我想所有人应该都会觉得蛮简单的,事实上也正是如此。

抓取一个页面的信息其实就是模拟访问然后获取它页面上所有的信息,通过正则表达式匹配出想要的信息。

而有的平台都是把数据通过json的方式直接发送给前端,这样对于抓取数据来说更加简单 只要根据相应的接口规则发起请求就可以直接获取json数据就不用正则匹配了。

x了么,美x,x度外卖的餐厅数据都是通过接口直接获取json抓到的 餐厅信息是通过正则匹配的。


总结:首先你要知道正则表达式,然后你要知道curl的使用(最好有一个封装好的curl的工具函数),最好有一个抓包工具我用的是火狐自带的Firebug 就很好用


版权声明:本文为博主原创文章,未经博主允许不得转载。

PHP爬虫最全总结1

爬虫是我一直以来跃跃欲试的技术,现在的爬虫框架很多,比较流行的是基于python,nodejs,java,C#,PHP的的框架,其中又以基于python的爬虫流行最为广泛,还有的已经是一套傻瓜式的软件...
  • future_todo
  • future_todo
  • 2016年10月10日 20:04
  • 5241

网页抓取:PHP实现网页爬虫方式小结

抓取某一个网页中的内容,需要对DOM树进行解析,找到指定节点后,再抓取我们需要的内容,过程有点繁琐。LZ总结了几种常用的、易于实现的网页抓取方式,如果熟悉JQuery选择器,这几种框架会相当简单。 ...
  • qq_30845505
  • qq_30845505
  • 2016年05月25日 15:49
  • 16027

php爬虫教程(四)抓取数据并进行处理

经过链接的分析,数据的分析,再加上规则的验证。 很容易的我们就get到了我们打算抓取到的数据, so,我们就可以做我们想做的事情了。例如: ...
  • u014017080
  • u014017080
  • 2016年08月30日 16:05
  • 3103

PHP网络爬虫之CURL学习

PHP的CURLphp的curl可以实现模拟http的各种请求,这也是php做网络爬虫的基础,也多用于接口api的调用。这个时候有人就要发问了:为什么你特么不用file_get_contents?cu...
  • i10630226
  • i10630226
  • 2016年08月10日 21:39
  • 4189

php后台“爬虫”模拟登录第三方系统(一)---cURL的介绍

一.相关知识介绍在服务器后台使用爬虫对第三方进行模拟登录,登录后可进行数据收集。也可以作为第三方登录,用处之多,我便不做细讲。 所具备的的知识: 1.curl知识 2.sesson和cookie...
  • liu_c_y
  • liu_c_y
  • 2015年11月20日 13:00
  • 2865

CURL 爬虫,抓取网页并写入文件

  • A9925
  • A9925
  • 2016年03月27日 20:55
  • 2760

php爬虫抓取信息及反爬虫相关

58爬虫了百姓,赶集和58互爬,最后各种信息相同,都是爬虫后的数据库调用,潜规则啊,几家独大还暗中各种攻击,赶驴网的幽默事例我不想多评价。这个时代是砸.钱*养.钱的时代,各种姚晨杨幂葛优,各种地铁公车...
  • wustzbq0713
  • wustzbq0713
  • 2015年05月30日 17:23
  • 1401

Scrapy定向爬虫教程(一)——创建运行项目和基本介绍

前言目前网上的Scrapy中文教程比较少,而且大多教程使用的Scrapy版本较老,比如说这个Scrapy 0.25 文档,如其名,上古时期的翻译文档;再比如极客学院的视频教程使用的是1.0.x版本,跟...
  • qq_30242609
  • qq_30242609
  • 2016年10月13日 22:34
  • 10223

爬虫教程(1)基础入门

爬虫介绍 网络爬虫,英译为 web crawler ,是一种自动化程序,现在我们很幸运,生处互联网时代,有大量的信息在网络上都可以查得到,但是有时我们需要网络上的数据,活着文章,图片等等,但是,一...
  • baidu_21833433
  • baidu_21833433
  • 2017年04月07日 16:24
  • 443

36个采集爬虫案例图文教程,手把手演示

  • 2017年09月21日 07:36
  • 91KB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:php爬虫教程(一) 简单的页面抓取
举报原因:
原因补充:

(最多只允许输入30个字)