正则采集

最新推荐文章于 2023-10-10 10:50:35 发布

zhang漫php

最新推荐文章于 2023-10-10 10:50:35 发布

阅读量889

点赞数 1

分类专栏： php 文章标签：正则采集

本文链接：https://blog.csdn.net/qq_36030288/article/details/52420969

版权

php 专栏收录该内容

33 篇文章 0 订阅

订阅专栏

<?php
set_time_limit(0);
/*
 * 随便一个链接地址	一定要有http://  
 * 对于https://好像不好使
 * */
$url = "http://www.jd.com";
/*
 * */
######方案1
/*
 * 设是编码以免乱码 编码书写大小不区分 第一个参数是链接网站的编码 第二个参数是自己设置的编码  最后一个参数就是链接的地址
 * */
$url = iconv('gbk', 'utf-8', $url);
/*
 * 设是编码以免乱码 编码书写大小不区分 第一个参数就是链接的地址  第二个参数是自己设置的编码 第三个参数是链接网站的编码
 *
 * */
######方案2
$url = mb_convert_encoding($url, 'utf-8', 'gbk');
/*
 * 打开文件
 * */
$file = file_get_contents($url);
/*
 * 写正则进行匹配 可以一次性取完 我在这里写了两次正方便一些特殊的网站
 * */
//$reg = '#自己的正则#';
/*
 * 进行匹配
 * */
preg_match($reg, $file, $data);
/*
 * 正则进行匹配
 * */
$reg = '#自己的正则#';
/*
 * 进行匹配
 * */
preg_match_all($reg, $data[0], $data);
/*
 * $data 就是你想要的内容
 * 如果是图片 进行下面的操作  方案1 保留原图片 方案2 自己命名图片
 * */
######方案1
foreach ($data[1] as $value) {
	/*
	 * pathinfo() 取得路径的信息
	 * */
	$path = pathinfo($value);
	/*
	 * 把得到的资源打开
	 * */
	$file = file_get_contents($value);
	/*
	 * 把得到的内容写到自己的文件中
	 * */
	file_put_contents('image/' . $path['basename'], $file);

}
######方案2
foreach ($data[1] as $value) {
	/*
	 * 把得到的资源再次打开
	 * */
	$file = file_get_contents($value);
	/*
	 * 图片的后缀
	 * */
	$jpg = strrchr($value, '.');
	/*
	 * 图片的命名规则
	 * */
	$filename = 'image/' . time() . rand(1000, 9999) . $jpg;
	/*
	 * 把得到的内容写到自己的文件中
	 * */
	file_put_contents($filename, $file);
}
/*
 * 采集思路
 * 0.配置一下采集的未连接到页面的请求时间 默认30秒 设置没有时间限制 set_time_limit(0);
 * 1.首先链接一个地址
 * 2.看看链接地址的编码是否符合自己的要求 不是就要改
 * 3.用函数进行打开一个网络资源 也就是链接过来的地址
 * 4.写正则进行匹配
 * 5.匹配到的东西进行处理
 * */