php在线爬虫测试,快速开发一个PHP电影爬虫

Meet Scrapy

python   爬虫

今天来做一个PHP

a732f779b68e56af02a9861b188287a5.gif

include_once 'simple_html_dom.php';

//获取html数据转化为对象

$html = file_get_html('http://paopaotv.com/tv-type-id-5-pg-1.html');

//A-Z的字母列表每条数据是在id=letter-focus 的div内class= letter-focus-item的dl标签内,用find方法查找即为

$listData=$html->find("#letter-focus .letter-focus-item");//$listData为数组对象

foreach($listData as$key=>$eachRowData){

$filmName=$eachRowData->find("dd span",0)->plaintext;//获取影视名称

$filmUrl=$eachRowData->find("dd a",0)->href;//获取dd标签下影视对应的地址

//获取影视的详细信息

$filmInfo=file_get_html("http://paopaotv.com".$filmUrl);

$filmDetail=$filmInfo->find(".info dl");

foreach($filmDetail as $film){

$info=$film->find("dd");

$row=null;

foreach($info as $childInfo){

$row[]=$childInfo->plaintext;

}

$cate[$key][]=join(",",$row);//将影视的信息存放到数组中

}

}

a732f779b68e56af02a9861b188287a5.gif

这样通过simple_html_dom,就可以将paopaotv.com影视列表中信息,以及影视的具体信息就抓取到了,之后你可以继续抓取影视详细页面上的视频地址信息,然后将该影视的所有信息都存放到数据库中。

下面是simple_html_dom常用的属性以及方法:

a732f779b68e56af02a9861b188287a5.gif

$html = file_get_html('http://paopaotv.com/tv-type-id-5-pg-1.html');

$e = $html->find("div", 0);

//标签

$e->tag;

//外文本

$e->outertext;

//内文本

$e->innertext;

//纯文本

$e->plaintext;

//子元素

$e->children ( [int $index] );

//父元素

$e->parent ();

//第一个子元素

$e->first_child ();

//最后一个子元素

$e->last_child ();

//后一个兄弟元素

$e->next_sibling ();

//前一个兄弟元素

$e->prev_sibling ();

//标签数组

$ret = $html->find('a');

//第一个a标签

$ret = $html->find('a', 0);

a732f779b68e56af02a9861b188287a5.gif

更多用法可以参考官方手册。

是不是很简单呢?有问题欢迎提出来交流

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值