最近使用后台的时候老是发现有些信息没法导出,又不想一个个复制很麻烦,想起以前做的一个小功能,用来抓取网页上的可用数据填充自己的数据库,由于网站需要登录才能访问,所以加上了curl的模拟登录
<?
$gopage = $_GET["gopage"];
if (!$gopage) $gopage = 0;
$rs = array();
//curl模拟登陆
$_POST["username"] = "模拟账号";
$_POST["password"] = "模拟密码";
$login_url = '登录地址';
$post = '登录信息';
$cookie = dirname(__FILE__) . '/pic.cookie';//表示当前文件的绝对路径,将登陆信息保存在指定文件中
$ch = curl_init();//初始化curl模块
curl_setopt($ch, CURLOPT_URL, $login_url);//提交登录地址
curl_setopt($ch, CURLOPT_HEADER, 0);//是否显示头信息
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);//是否自动显示返回的信息
curl_setopt($ch, CURLOPT_POSTFIELDS, $post);//以post方式提交
curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie);//设置cookie信息保存在指定的文件中
curl_exec($ch);//执行登录操作
curl_close($ch);//关闭curl资源,并且释放系统资源
$url = "抓取地址";
$ch1 = curl_init();
curl_setopt($ch1, CURLOPT_URL, $url);
curl_setopt($ch1, CURLOPT_HEADER, 0);
curl_setopt($ch1, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch1, CURLOPT_COOKIEFILE, $cookie);//从指定文件中读取cookie
$str = curl_exec($ch1);//执行curl抓取页面内容,以字符串形式存入$str
curl_close($ch1);
$yunprice = explode('<aside id="yunex', $str);//抓取下来的是HTML代码,根据需要切割字符串
//对切割后的数组里的数据进一步优化,去除HTML代码和空格换行之类的东西
$i = 1;
while ($i < count($yunprice)) {
$tmp = strip_tags(str_replace('<section>', "|", $yunprice[$i]));//去除字符串中的代码标签,并把特定字符替换
$child = explode("|", $tmp);//切割
$a = 0;
while ($a < count($child)) {
$st = trim($child[$a]);//去除两边空格或其他预定义字符
$str = strip_tags($st);//去除代码标签
$child[$a] = preg_replace("/\s+/", "", $str);//正则匹配,去除所有空格换行等标签
$a++;
}
$i++;
$rs[] = $child;
}
foreach ($rs as $key => $value) {
if (is_array($value)) {//判断是否为数组
unset($rs[$key][0]);
// $rs[$key][1] = substr($rs[$key][1],0,(strlen($rs[$key][1])-21));//去除字符 strlen获取长度(英文 中文为char-length)
$rs[$key][1] = substr($rs[$key][1], 6);
foreach ($value as $ke => $val) {
if ($ke > 8)
unset($rs[$key][$ke]);
}
} else {
unset($rs[$key]);
}
}
$rs = array_values($rs);//返回所有键值,并给定新的键名,从0开始递增
foreach ($rs as $key => $val) {
/*在此处对抓取到的数据进行整理,逐行插入数据库或导出到表*/
echo $val;
}
$gopage = $gopage + 1;
//跳转到下一次执行
echo "<script>location.href='?gopage=$gopage';</script>";