<?php
set_time_limit(0);
/*
* 随便一个链接地址 一定要有http://
* 对于https://好像不好使
* */
$url = "http://www.jd.com";
/*
* */
######方案1
/*
* 设是编码以免乱码 编码书写大小不区分 第一个参数是链接网站的编码 第二个参数是自己设置的编码 最后一个参数就是链接的地址
* */
$url = iconv('gbk', 'utf-8', $url);
/*
* 设是编码以免乱码 编码书写大小不区分 第一个参数就是链接的地址 第二个参数是自己设置的编码 第三个参数是链接网站的编码
*
* */
######方案2
$url = mb_convert_encoding($url, 'utf-8', 'gbk');
/*
* 打开文件
* */
$file = file_get_contents($url);
/*
* 写正则进行匹配 可以一次性取完 我在这里写了两次正方便一些特殊的网站
* */
//$reg = '#自己的正则#';
/*
* 进行匹配
* */
preg_match($reg, $file, $data);
/*
* 正则进行匹配
* */
$reg = '#自己的正则#';
/*
* 进行匹配
* */
preg_match_all($reg, $data[0], $data);
/*
* $data 就是你想要的内容
* 如果是图片 进行下面的操作 方案1 保留原图片 方案2 自己命名图片
* */
######方案1
foreach ($data[1] as $value) {
/*
* pathinfo() 取得路径的信息
* */
$path = pathinfo($value);
/*
* 把得到的资源打开
* */
$file = file_get_contents($value);
/*
* 把得到的内容写到自己的文件中
* */
file_put_contents('image/' . $path['basename'], $file);
}
######方案2
foreach ($data[1] as $value) {
/*
* 把得到的资源再次打开
* */
$file = file_get_contents($value);
/*
* 图片的后缀
* */
$jpg = strrchr($value, '.');
/*
* 图片的命名规则
* */
$filename = 'image/' . time() . rand(1000, 9999) . $jpg;
/*
* 把得到的内容写到自己的文件中
* */
file_put_contents($filename, $file);
}
/*
* 采集思路
* 0.配置一下采集的未连接到页面的请求时间 默认30秒 设置没有时间限制 set_time_limit(0);
* 1.首先链接一个地址
* 2.看看链接地址的编码是否符合自己的要求 不是就要改
* 3.用函数进行打开一个网络资源 也就是链接过来的地址
* 4.写正则进行匹配
* 5.匹配到的东西进行处理
* */
不是太好,后续会更新的。