php数据采集源码,3种PHP实现数据采集的方法

什么叫采集?就是使用PHP程序,把其他网站中的信息抓取到我们自己的数据库中、网站中。本文主要和大家分享的是3种PHP实现数据采集的方法,希望能帮助到大家。

PHP制作采集的技术:

从底层的socket到高层的文件操作函数,一共有3种方法可以实现采集。

1. 使用socket技术采集:

socket采集是最底层的,它只是建立了一个长连接,然后我们要自己构造http协议字符串去发送请求。<?php

//连接,$error错误编号,$errstr错误的字符串,30s是连接超时时间

$fp=fsockopen("www.youku.com",80,$errno,$errstr,30);

if(!$fp) die("连接失败".$errstr);

//构造http协议字符串,因为socket编程是最底层的,它还没有使用http协议

$http="GET /?spm=a2hww.20023042.topNav.5~1~3!2~A HTTP/1.1\r\n"; // \r\n表示前面的是一个命令

$http.="Host:www.youku.com\r\n"; //请求的主机

$http.="Connection:close\r\n\r\n"; // 连接关闭,最后一行要两个\r\n

//发送这个字符串到服务器

fwrite($fp,$http,strlen($http));

//接收服务器返回的数据

$data='';

while (!feof($fp)) {

$data.=fread($fp,4096); //fread读取返回的数据,一次读取4096字节

}

//关闭连接

fclose($fp);

var_dump($data);

?>

打印出的结果如下,包含了返回的头信息及页面的源码:

7b4e5618303916b28609b65927985386.png

2. 使用curl_一套函数

curl把HTTP协议都封装成了很多函数,直接传相应参数即可,降低了编写HTTP协议字符串的难度。

前提:在php.ini中要开启curl扩展。//生成一个curl对象

$curl=curl_init();

//设置URL和相应的选项

curl_setopt($curl, CURLOPT_URL, "http://www.youku.com");

curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); //将curl_exec()获取的信息以字符串返回,而不是直接输出。

//执行curl操作

$data=curl_exec($curl);

var_dump($data);

打印出的结果如下,只包含页面的源码:

3375faa55e1ac74b6ad2eba4af68027e.png

3. 直接使用file_get_contents(最顶层的)

前提:在php.ini中设置允许打开一个网络的url地址。

7b26bd2c90eb2e8f86c3a4778d12dfdb.png

[php] view plain copy//使用file_get_contents()

$data=file_get_contents("http://www.youku.com");

var_dump($data);

ad00c66d2f59338764a202fc76350c6d.png

3种方式的选择

网络之间通信主要使用的是以上三种。其中后两种用的较多:如果要批量采集大量的数据时使用第二种【CURL】,性能好、稳定。

偶尔发几个请求发的频繁不密集时使用第三种。

扩展:图片的防盗链如何破?

比如7060网站上的图片做了防盗链:在他的网站中可以看到图片,把图片拿到站外就无法访问。

1f89e7280d9862b8f7289499854593c8.png

原理:在HTTP协议中有一个referer项,代表发这个请求的来源地址,服务器会判断如果这个请求不是这个网站发来的就会过滤掉这个请求:

56937d68aeae858c1123a7cc4d3d0711.png

解决办法:发HTTP时自己模拟referer即可:

a8a938b469d2ddc40c9e3cd8d776d8c6.png

扩展:有些要采集数据时时必须先登录,可以使用模拟的试模拟在登录状态下的采集:

a. 先用浏览登录一下,登录完,浏览器的COOKIE中就会有SESSIONID

b. 发PHP发HTTP协议时,把浏览器中的SESSIONID放到PHP的HTTP协议请求里,这样就在以登录的状态发请求。

总结:所有客户端发过来的数据都可以被模拟,所以服务器上的程序必须要必要的地方过滤客户端的数据。

什么时候用以上东西?接口开发时、采集时。

二、数据采集

例如我要采集这个url里的所有美国电影的信息,

则先要知道电影所在的节点的结构,我们使用firebug查看。

fa6d50a5a959f5b34e977c869e606c6d.png

然后开始写代码:完整代码如下/**

* 发一个GET请求获取数据

*/

function get($url)

{

global $curl;

// 配置curl中的http协议->可配置的荐可以查PHP手册中的curl_

curl_setopt($curl, CURLOPT_URL, $url);

curl_setopt($curl, CURLOPT_RETURNTRANSFER, TRUE);

curl_setopt($curl, CURLOPT_HEADER, FALSE);

// 执行这个请求

return curl_exec($curl);

}

// 生成一个curl对象

$curl = curl_init();

$url='http://list.youku.com/category/show/c_96_a_%E7%BE%8E%E5%9B%BD_s_1_d_1_p_3.html';

$data=get($url);

// 匹配电影所在位置

$list_preg = '/

.+/Us';

// 匹配img标签上的src和alt

$img_preg = '/(.*)/U';

//匹配电影的url

$video_preg='//U';

//把所有的li存到$list里,$list是个二维数组

preg_match_all($list_preg,$data,$list);

//var_dump($list);

foreach ($list[0] as $k => $v) { //这里$v就是每一个li标签

/* 获取图片及电影名称

preg_match($img_preg,$v,$img); //把匹配到的图片的信息存到$img里

var_dump($img);

*/

/*获取电影地址

preg_match($video_preg,$v,$video); //把匹配到的电影的信息存到$video里

var_dump($video);

*/

preg_match($img_preg,$v,$img);

preg_match($video_preg,$v,$video);

echo $img[0].''.$video[2].'';

}

测试:

打印$list;

af53007bdd1421cad37486ff782d79b0.png

打印$img

4ed38cf9e668f138b75af90ad4121847.png

打印$video

6a1dc1abb1c17ce69813d4c9423f62f0.png

最终效果:

acf9252b7406763928019cae87501dd8.png

如果需要把图片拷贝到硬盘上,则在foreach循环里加上以下代码:$imgData = get($img[1]);

// 把图片文件写到硬盘上【下载】

// 因为操作系统是GBK的,所以要把UTF8转成GBK

is_dir('./youkuimg/') ? '': mkdir('./youkuimg/');

file_put_contents('./youkuimg/'.mb_convert_encoding($img[3], 'gbk', 'utf-8').'.jpg', $imgData);

089fbae6d932b0387dbe2d2374e7c90e.png

效果如下:在当前目录下的youkuimg目录下就会有下载好的图片。

d248a9f50e95f74580ba3e1f462f20fa.png

相关推荐:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Soukey采摘网站数据采集软件是一款基于.Net平台的开源软件,也是网站数据采集软件类型中唯一一款开源软件。尽管Soukey采摘开源,但并不会影响软件功能的提供,甚至要比一些商用软件的功能还要丰富。Soukey采摘当前提供的主要功能如下: 1. 多任务多线程数据采集,支持POST方式; 2. 可采集Ajax页面; 3. 支持Cookie,支持手工登录采集数据; 4. 支持采集事务; 5. 支持数据自动及手工导出,导出格式为:文本、Excel、Access、MSSql、Mysql等; 6. 支持在线发布数据; 7. 支持导航网址的采集,导航深度不限; 8. 支持自动翻页; 9. 支持文件下载,可以采集图片、Flash及其他文件; 10. 支持采集结果数据的加工,包括替换、附前缀后缀、截取等操作,支持正则; 11. 采集网址定义不仅支持基本参数定义,也可外接字典数据作为网址参数,进行数据采集; 12. 支持一个任务多实例运行; 13. 提供计划任务,计划任务支持Soukey采集任务、外部可执行文件任务、数据库存储过程任务; 14. 计划任务执行周期支持每天、每周及自定义运行间隔;最小单位为:半小时; 15. 支持任务触发器,即可在采集任务完成后,自动触发执行其他任务(包括可执行文件或存储过程)。 16. 完善的日志功能:系统日志、任务执行日志、出错日志等等; 17. 系统提供MINI浏览器可用于捕获Cookie或POST数据; Soukey采摘并不限制您是否商用此软件,源码完全开放,
### 回答1: 智能电表数据采集 php源码是一能够获取智能电表数据的程序源代码,使用PHP语言编写而成。智能电表数据采集可以通过将数据从电表传送到另一台设备(如服务器)上,从而实现对电能的监控和数据分析。 该程序源码的主要代码包括电表通讯模块和数据采集模块。电表通讯模块负责与智能电表进行通信,获取电表数据;数据采集模块则负责格式化电表数据,存入数据库并向用户反馈数据。 使用php源码编写可有以下优点:首先,PHP是一开发较快、代码可读性较高的语言,使得开发者在编写智能电表数据采集时,可以更快地实现程序的开发、维护和更新;此外,PHP语言具有广泛的支持和社区,可以提供很好的技术支持,对于初学者来说,可以更方便地找到解决问题的方法。 智能电表数据采集php源码的应用价值较大,可以在电力、能源管理、环境管理、设备监控等方面得到广泛应用。对于用户来说,可以通过实时监测电能数据,更好地掌握能源使用情况、优化能源使用方案,降低电费;对于能源管理部门来说,可以通过数据采集和分析,及时了解不同区域的用电情况,制定合理的电力调度计划。因此,智能电表数据采集php源码的应用前景十分广泛。 ### 回答2: 智能电表数据采集PHP源码是一能够自动采集智能电表设备中的数据信息,并通过PHP编程语言实现的一套源代码程序。通过该程序的运行,可以自动化地采集智能电表设备中的各数据信息,并实现数据的存储、分析和处理,以方便用户进行统计和分析。 智能电表数据采集PHP源码的核心优势在于它具有高效、快速和准确的数据采集能力。通过该源码程序的运行,可以自动地获取设备中的各项数据指标,并实现实时数据监控和处理。同时,该程序具有多数据处理和分析功能,可以对数据进行筛选、排序、计算等操作,以满足不同用户的需求。 此外,智能电表数据采集PHP源码还具有一定的用户友好性和易用性,在使用过程中可以方便地配置和管理,可以根据用户的需求进行自定义设置,以满足不同场景下的数据采集需求。 总之,智能电表数据采集PHP源码是一功能强大、操作简便的数据采集程序,具有高效、快速、准确、友好等优点,为用户提供了一高效的数据处理解决方案。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值