python为啥叫爬虫-为什么写爬虫都喜欢用python?

可能很多人以为PHP只能做做网页,不知道PHP也有Simple-HTML-DOM , phpQuery, Ganon这些现成的DOM操作库吧,可能以为PHP只能自己从头用fopen/file_get_contents/curl/preg从头写吧,可能也不知道PHP有多线程pthreads或者不知道curl_multi并行发起请求吧.

例1:simple_html_dom.php采集PHP官网首页新闻发布时间/标题/内容

<?php

require dirname(__FILE__).'/simple_html_dom.php';

$html = file_get_html('http://cn2.php.net');

$news = array();

foreach($html->find('article.newsentry') as $article) {

$item['time'] = trim($article->find('time', 0)->plaintext);

$item['title'] = trim($article->find('h2.newstitle', 0)->plaintext);

$item['content'] = trim($article->find('div.newscontent', 0)->plaintext);

$news[] = $item;

}

var_export($news);

例2:curl_multi并行发起多个请求

接口1: php -S 127.0.0.1:8080 -t /home/eechen/www

接口2: php -S 127.0.0.2:8080 -t /home/eechen/www

/home/eechen/www/index.php:

header('Content-Type: application/json; charset=utf-8');

echo json_encode(array('SERVER_NAME' => $_SERVER['SERVER_NAME']));

//串行访问需要sum(2,1)秒,并行访问需要max(2,1)秒.

($_SERVER['SERVER_NAME'] == '127.0.0.1') ? sleep(2) : sleep(1);

<?php

$url[] = 'http://127.0.0.1:8080';

$url[] = 'http://127.0.0.2:8080';

$mh = curl_multi_init();

foreach($url as $k => $v) {

$ch[$k] = curl_init($v);

curl_setopt($ch[$k], CURLOPT_HEADER, 0); //不输出头

curl_setopt($ch[$k], CURLOPT_RETURNTRANSFER, 1); //exec返回结果而不是输出,用于赋值

curl_multi_add_handle($mh, $ch[$k]); //决定exec输出顺序

}

$running = null;

$starttime = microtime(true);

do { //执行批处理句柄

curl_multi_exec($mh, $running); //CURLOPT_RETURNTRANSFER如果为0,这里会直接输出获取到的内容.如果为1,后面可以用curl_multi_getcontent获取内容.

curl_multi_select($mh); //阻塞直到cURL批处理连接中有活动连接,不加这个会导致CPU负载超过90%.

} while ($running > 0);

echo microtime(true) - $starttime." "; //耗时约2秒

foreach($ch as $v) {

$json[] = curl_multi_getcontent($v);

curl_multi_remove_handle($mh, $v);

}

curl_multi_close($mh);

var_export($json);

例3:PHP使用多线程异步获取资源

<?php

class Request extends Thread {

public $url;

public $data;

public function __construct($url) {

$this->url = $url;

}

public function run() {

// 线程处理一个耗时5秒的任务

for($i=0;$i<5;$i++) {

echo '线程: '.date('H:i:s')." ";

sleep(1);

}

$response = file_get_contents($this->url);

if ($response) {

$this->data = array($response);

}

echo "线程: 任务完成 ";

}

}

$request = new Request('hello.html');

// 运行线程:start()方法会触发run()运行

if ($request->start()) {

// 主进程处理一个耗时10秒的任务,此时线程已经工作

for($i=0;$i<10;$i++) {

echo '进程: '.date('H:i:s')." ";

sleep(1);

}

// 同步线程并输出线程返回的数据

$request->join();

echo '线程返回数据: '.$request->data[0];

}

/*

如果顺序执行,合计时间将是15秒,借助线程,则只需10秒.

生成文件: echo 'Hello' > hello.html

运行计时: time php req.php

查看线程: ps -efL|head -n1 && ps -efL|grep php

*/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值