php多线程实现抓取,php使用pthreads v3多线程实现抓取新浪新闻信息操作示例

本文实例讲述了php使用pthreads v3多线程实现抓取新浪新闻信息。分享给大家供大家参考,具体如下:

我们使用pthreads,来写一个多线程的抓取页面小程序,把结果存到数据库里。

数据表结构如下:

CREATE TABLE `tb_sina` (

`id` int(11) unsigned NOT NULL AUTO_INCREMENT COMMENT 'ID',

`url` varchar(256) DEFAULT '' COMMENT 'url地址',

`title` varchar(128) DEFAULT '' COMMENT '标题',

`time` datetime DEFAULT NULL ON UPDATE CURRENT_TIMESTAMP COMMENT '时间',

PRIMARY KEY (`id`)

) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='sina新闻';

代码如下:

class DB extends Worker

{

private static $db;

private $dsn;

private $root;

private $pwd;

public function __construct($dsn, $root, $pwd)

{

$this->dsn = $dsn;

$this->root = $root;

$this->pwd = $pwd;

}

public function run()

{

//创建连接对象

self::$db = new PDO($this->dsn, $this->root, $this->pwd);

//把require放到worker线程中,不要放到主线程中,不然会报错找不到类

require './vendor/autoload.php';

}

//返回一个连接资源

public function getConn()

{

return self::$db;

}

}

class Sina extends Thread

{

private $name;

private $url;

public function __construct($name, $url)

{

$this->name = $name;

$this->url = $url;

}

public function run()

{

$db = $this->worker->getConn();

if (empty($db) || empty($this->url)) {

return false;

}

$content = file_get_contents($this->url);

if (!empty($content)) {

//获取标题,地址,时间

$data = QL\QueryList::Query($content, [

'tit' => ['.c_tit > a', 'text'],

'url' => ['.c_tit > a', 'href'],

'time' => ['.c_time', 'text'],

], '', 'UTF-8', 'GB2312')->getData();

//把获取的数据插入数据库

if (!empty($data)) {

$sql = 'INSERT INTO tb_sina(`url`, `title`, `time`) VALUES';

foreach ($data as $row) {

//修改下时间,新浪的时间格式是这样的04-23 15:30

$time = date('Y') . '-' . $row['time'] . ':00';

$sql .= "('{$row['url']}', '{$row['tit']}', '{$time}'),";

}

$sql = rtrim($sql, ',');

$ret = $db->exec($sql);

if ($ret !== false) {

echo "线程{$this->name}成功插入{$ret}条数据\n";

} else {

var_dump($db->errorInfo());

}

}

}

}

}

//抓取页面地址

$url = 'http://roll.news.sina.com.cn/s/channel.php?ch=01#col=89&spec=&type=&ch=01&k=&offset_page=0&offset_num=0&num=60&asc=&page=';

//创建pool池

$pool = new Pool(5, 'DB', ['mysql:dbname=test;host=192.168.33.226', 'root', '']);

//获取100个分页数据

for ($ix = 1; $ix <= 100; $ix++) {

$pool->submit(new Sina($ix, $url . $ix));

}

//循环收集垃圾,阻塞主线程,等待子线程结束

while ($pool->collect()) ;

$pool->shutdown();

由于使用到了QueryList,大家可以通过composer进行安装。

composer require jaeger/querylist

不过安装的版本是3.2,在我的php7.2下会有问题,由于each()已经被废弃,所以修改下源码,each()全换成foreach()就好了。

运行结果如下:

2ce827f08d62bcdec97f5f4223fe5adb.png

数据也保存进了数据库

3fedf5a2401206e003bc39bbaed9181c.png

当然大家也可以再次通过url,拿到具体的页面内容,这里就不做演示了,有兴趣的可以自已去实现。

希望本文所述对大家PHP程序设计有所帮助。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值