正则采集

<?php
set_time_limit(0);
/*
 * 随便一个链接地址	一定要有http://  
 * 对于https://好像不好使
 * */
$url = "http://www.jd.com";
/*
 * */
######方案1
/*
 * 设是编码以免乱码 编码书写大小不区分 第一个参数是链接网站的编码 第二个参数是自己设置的编码  最后一个参数就是链接的地址
 * */
$url = iconv('gbk', 'utf-8', $url);
/*
 * 设是编码以免乱码 编码书写大小不区分 第一个参数就是链接的地址  第二个参数是自己设置的编码 第三个参数是链接网站的编码
 *
 * */
######方案2
$url = mb_convert_encoding($url, 'utf-8', 'gbk');
/*
 * 打开文件
 * */
$file = file_get_contents($url);
/*
 * 写正则进行匹配 可以一次性取完 我在这里写了两次正方便一些特殊的网站
 * */
//$reg = '#自己的正则#';
/*
 * 进行匹配
 * */
preg_match($reg, $file, $data);
/*
 * 正则进行匹配
 * */
$reg = '#自己的正则#';
/*
 * 进行匹配
 * */
preg_match_all($reg, $data[0], $data);
/*
 * $data 就是你想要的内容
 * 如果是图片 进行下面的操作  方案1 保留原图片 方案2 自己命名图片
 * */
######方案1
foreach ($data[1] as $value) {
	/*
	 * pathinfo() 取得路径的信息
	 * */
	$path = pathinfo($value);
	/*
	 * 把得到的资源打开
	 * */
	$file = file_get_contents($value);
	/*
	 * 把得到的内容写到自己的文件中
	 * */
	file_put_contents('image/' . $path['basename'], $file);

}
######方案2
foreach ($data[1] as $value) {
	/*
	 * 把得到的资源再次打开
	 * */
	$file = file_get_contents($value);
	/*
	 * 图片的后缀
	 * */
	$jpg = strrchr($value, '.');
	/*
	 * 图片的命名规则
	 * */
	$filename = 'image/' . time() . rand(1000, 9999) . $jpg;
	/*
	 * 把得到的内容写到自己的文件中
	 * */
	file_put_contents($filename, $file);
}
/*
 * 采集思路
 * 0.配置一下采集的未连接到页面的请求时间 默认30秒 设置没有时间限制 set_time_limit(0);
 * 1.首先链接一个地址
 * 2.看看链接地址的编码是否符合自己的要求 不是就要改
 * 3.用函数进行打开一个网络资源 也就是链接过来的地址
 * 4.写正则进行匹配
 * 5.匹配到的东西进行处理
 * */

不是太好,后续会更新的。 吐舌头
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值