首先给大家介绍什么是RSS,我自己的理解RSS就是一种基于标准的XML格式的信息的聚合,RSS订阅的好处是没有广告或者图片来影响标题或者文章概要的阅读。先说说CSDN博客的RSS订阅在哪里?不知道小伙伴注意过没有,在个人博客的右上角就有RSS订阅这项功能,点击这个按钮,就会进入RSS订阅的模式,其实这就是一个xml的文件。我们可以把这个RSS下载下来,保存为xml的文件,使用文本编辑器就可以查看结构,下面是我写的博客的RSS文件的信息,只截取了其中一部分内容。
下面我们就用两种方法解析xml文件,获得我们想要的信息。
第一种方法:使用SimpleXML里的simplexml_load_file函数,代码如下
<?php
$xml=simplexml_load_file('http://blog.csdn.net/u012811078/rss/list');
//上面是我博客里RSS的地址
foreach ($xml->channel->item as $item) {
echo "文章标题:".$item->title."<br/>";
echo "文章作者:".$item->author."<br/>";
echo "文章地址:".$item->link."<br/>";
echo "发布时间:".$item->pubDate."<br/>";
echo "<hr/>";
}
?>
解析结果如下:
第二种方法:使用DOM库,代码如下:
<?php
$doc=new DomDocument();
$doc->load('http://blog.csdn.net/u012811078/rss/list');
$nodes=$doc->getElementsByTagName('item');
foreach ($nodes as $node) {
echo "文章标题:".trim($node->getElementsByTagName('title')->item(0)->nodeValue)."<br/>";
echo "文章作者:".$node->getElementsByTagName('author')->item(0)->nodeValue."<br/>";
echo "文章地址:".$node->getElementsByTagName('link')->item(0)->nodeValue."<br/>";
echo "发布时间:".$node->getElementsByTagName('pubDate')->item(0)->nodeValue."<br/>";
echo "<hr />";
}
?>
解析结果如下所示:
上面的例子只给你一个参考,你也可以获得其他的你需要的信息,并且把解析出来的数据存储在数据库里,并对数据进行分析。