用curl+PHP抓取网页上所需要的数据

最近使用后台的时候老是发现有些信息没法导出,又不想一个个复制很麻烦,想起以前做的一个小功能,用来抓取网页上的可用数据填充自己的数据库,由于网站需要登录才能访问,所以加上了curl的模拟登录

<?
$gopage = $_GET["gopage"];
if (!$gopage) $gopage = 0;
$rs = array();
//curl模拟登陆
$_POST["username"] = "模拟账号";
$_POST["password"] = "模拟密码";
$login_url = '登录地址';
$post = '登录信息';
$cookie = dirname(__FILE__) . '/pic.cookie';//表示当前文件的绝对路径,将登陆信息保存在指定文件中

$ch = curl_init();//初始化curl模块

curl_setopt($ch, CURLOPT_URL, $login_url);//提交登录地址
curl_setopt($ch, CURLOPT_HEADER, 0);//是否显示头信息
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);//是否自动显示返回的信息
curl_setopt($ch, CURLOPT_POSTFIELDS, $post);//以post方式提交
curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie);//设置cookie信息保存在指定的文件中
curl_exec($ch);//执行登录操作
curl_close($ch);//关闭curl资源,并且释放系统资源
$url = "抓取地址";
$ch1 = curl_init();
curl_setopt($ch1, CURLOPT_URL, $url);
curl_setopt($ch1, CURLOPT_HEADER, 0);
curl_setopt($ch1, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch1, CURLOPT_COOKIEFILE, $cookie);//从指定文件中读取cookie
$str = curl_exec($ch1);//执行curl抓取页面内容,以字符串形式存入$str
curl_close($ch1);
$yunprice = explode('<aside id="yunex', $str);//抓取下来的是HTML代码,根据需要切割字符串

//对切割后的数组里的数据进一步优化,去除HTML代码和空格换行之类的东西
$i = 1;
while ($i < count($yunprice)) {
	$tmp = strip_tags(str_replace('<section>', "|", $yunprice[$i]));//去除字符串中的代码标签,并把特定字符替换
	$child = explode("|", $tmp);//切割
	$a = 0;
	while ($a < count($child)) {
		$st = trim($child[$a]);//去除两边空格或其他预定义字符
		$str = strip_tags($st);//去除代码标签
		$child[$a] = preg_replace("/\s+/", "", $str);//正则匹配,去除所有空格换行等标签
		$a++;
	}
	$i++;
	$rs[] = $child;
}
foreach ($rs as $key => $value) {
	if (is_array($value)) {//判断是否为数组
		unset($rs[$key][0]);
//			$rs[$key][1] = substr($rs[$key][1],0,(strlen($rs[$key][1])-21));//去除字符 strlen获取长度(英文 中文为char-length)
		$rs[$key][1] = substr($rs[$key][1], 6);
		foreach ($value as $ke => $val) {
			if ($ke > 8)
				unset($rs[$key][$ke]);
		}
	} else {
		unset($rs[$key]);
	}
}

$rs = array_values($rs);//返回所有键值,并给定新的键名,从0开始递增

foreach ($rs as $key => $val) {
	/*在此处对抓取到的数据进行整理,逐行插入数据库或导出到表*/
	echo $val;
}
$gopage = $gopage + 1;
//跳转到下一次执行
echo "<script>location.href='?gopage=$gopage';</script>";
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值