php在线爬虫测试,快速开发一个PHP电影爬虫

最新推荐文章于 2022-07-04 17:57:22 发布

樱红蕉绿

最新推荐文章于 2022-07-04 17:57:22 发布

阅读量360

点赞数

文章标签： php在线爬虫测试

Meet Scrapy

python 爬虫

今天来做一个PHP

include_once 'simple_html_dom.php';

//获取html数据转化为对象

$html = file_get_html('http://paopaotv.com/tv-type-id-5-pg-1.html');

//A-Z的字母列表每条数据是在id=letter-focus 的div内class= letter-focus-item的dl标签内，用find方法查找即为

$listData=$html->find("#letter-focus .letter-focus-item");//$listData为数组对象

foreach($listData as$key=>$eachRowData){

$filmName=$eachRowData->find("dd span",0)->plaintext;//获取影视名称

$filmUrl=$eachRowData->find("dd a",0)->href;//获取dd标签下影视对应的地址

//获取影视的详细信息

$filmInfo=file_get_html("http://paopaotv.com".$filmUrl);

$filmDetail=$filmInfo->find(".info dl");

foreach($filmDetail as $film){

$info=$film->find("dd");

$row=null;

foreach($info as $childInfo){

$row[]=$childInfo->plaintext;

}

$cate[$key][]=join(",",$row);//将影视的信息存放到数组中

}

}

这样通过simple_html_dom，就可以将paopaotv.com影视列表中信息，以及影视的具体信息就抓取到了，之后你可以继续抓取影视详细页面上的视频地址信息，然后将该影视的所有信息都存放到数据库中。

下面是simple_html_dom常用的属性以及方法：

$html = file_get_html('http://paopaotv.com/tv-type-id-5-pg-1.html');

$e = $html->find("div", 0);

//标签

$e->tag;

//外文本

$e->outertext;

//内文本

$e->innertext;

//纯文本

$e->plaintext;

//子元素

$e->children ( [int $index] );

//父元素

$e->parent ();

//第一个子元素

$e->first_child ();

//最后一个子元素

$e->last_child ();

//后一个兄弟元素

$e->next_sibling ();

//前一个兄弟元素

$e->prev_sibling ();

//标签数组

$ret = $html->find('a');

//第一个a标签

$ret = $html->find('a', 0);

更多用法可以参考官方手册。

是不是很简单呢？有问题欢迎提出来交流

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
php在线爬虫测试,快速开发一个PHP电影爬虫

Meet Scrapypython 爬虫今天来做一个PHP include_once'simple_html_dom.php';//获取html数据转化为对象$html=file_get_html('http://paopaotv.com/tv-type-id-5-pg-1.html');//A-Z的字母列表每条数据是在id=letter-focus的div内class=letter...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。