python爬取百度贴吧中的所有邮箱_PHP网页抓取之抓取百度贴吧邮箱数据代码分享...

百度贴吧大家都经常逛,去逛百度贴吧的时候,经常会看到楼主分享一些资源,要求留下邮箱,楼主才给发。

对于一个热门的帖子,留下的邮箱数量是非常多的,楼主需要一个一个的去复制那些回复的邮箱,然后再粘贴发送邮件,不是被折磨死就是被累死。无聊至极写了一个抓取百度贴吧邮箱数据的程序,需要的拿走。

程序实现了一键抓取帖子全部邮箱和分页抓取邮箱两个功能,界面懒得做了,效果如下:

老规矩,直接贴源码

$url2="";

$page="";

if($_GET['url2']==""){

$url2="http://tieba.baidu.com/p/2314539885?pn=1";

}else{

$url2=$_GET['url2'];

}

if($_GET['page']==""){

$page="1";

}else{

$page=$_GET['page'];

}

?>

帖子链接:
总页数:
帖子链接:

if($_GET['type']!=""){

$counts=0;

if($_GET['type']=="getAll"){

$pages=$_GET['page'];

$url = $_GET['url'];

for($i=0;$i

$ch2 = curl_init();

curl_setopt($ch2, CURLOPT_URL, $url);

curl_setopt($ch2, CURLOPT_FOLLOWLOCATION, TRUE);

curl_setopt($ch2, CURLOPT_SSL_VERIFYHOST, FALSE);

curl_setopt($ch2, CURLOPT_SSL_VERIFYPEER, false);

curl_setopt($ch2, CURLOPT_RETURNTRANSFER, TRUE);

$texts = curl_exec($ch2);

curl_close($ch2);

$dat=getEmail($texts);

for($j=0;$j

echo $dat[$j]."
";

$counts++;

}

}

}else if($_GET['type']=="getNow"){

$url = $_GET['url2'];

$ch2 = curl_init();

curl_setopt($ch2, CURLOPT_URL, $url);

curl_setopt($ch2, CURLOPT_FOLLOWLOCATION, TRUE);

curl_setopt($ch2, CURLOPT_SSL_VERIFYHOST, FALSE);

curl_setopt($ch2, CURLOPT_SSL_VERIFYPEER, false);

curl_setopt($ch2, CURLOPT_RETURNTRANSFER, TRUE);

$texts = curl_exec($ch2);

curl_close($ch2);

$dat=getEmail($texts);

for($i=0;$i

echo $dat[$i]."
";

$counts++;

}

}

echo '

共采集到数据:'.$counts.'条

';

}

function getEmail($str){

$pattern = "/([a-z0-9\-_\.]+@[a-z0-9]+\.[a-z0-9\-_\.]+)/";

preg_match_all($pattern,$str,$emailArr);

return $emailArr[0];

}

?>

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值