PHP应用正则表达式分析RSS

最新推荐文章于 2024-07-30 21:02:40 发布

jeremychin

最新推荐文章于 2024-07-30 21:02:40 发布

阅读量985

点赞数

分类专栏： PHP 文章标签：正则表达式 php fp file rss encoding

本文链接：https://blog.csdn.net/jeremychin/article/details/3671805

版权

PHP 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

最近做了一个读取中国新闻网RSS的页面。
首先是把RSS文档下载下来保存到本地

 
 $xmlfile = 'news/'.date('YmdH').'.xml'; 
$sourcexml =   'http://www.chinanews.com.cn/rss/scroll-news.xml'; 
if( !file_exists($xmlfile) ) { 
$str = @file($sourcexml) or die('加载文件时出错。'); 
$fp = fopen($xmlfile,'w') or die('写缓存失败!'); 
fputs($fp,$str); 
fclose($fp); 
 

然后用simplexml读取并输出HTML

 
 $xml = simplexml_load_file($xmlfile); 
$c = $xml->channel;   
$k = 0; 
foreach($c->item as $v) { 
$k ++; 
echo "  
<div class=/"newsline/">·<a title=/"$v->title/" href=/"$v->link/" target=/"_blank/">$v->title</a></div>
";
 

后来遇到了一个问题，就是RSS中经常包含有一些GBK的繁体字。google了很多字符集转换方面的文章。得出一个解法：

$str = mb_convert_encoding( join('',$str), "gb2312", "GBK");

这个方法并不能繁体转为简体，会转成一个乱码，但至少能保证simplexml_load_file($xmlfile)执行成功。因为这些繁体字通常出现在描述里

，暂且接受。

   再后来遇到另一个问题，描述里出现了形如“中新网12月30日电(闻育e?”的乱码，simplexml_load_file失败。
   至此考虑用正则表达式获取标题和链接。（有文章说正则表达式效率可能更好，以后再验证）
   代码如下：

$fp = fopen($xmlfile,'r');
if($fp)
{
$data = fread($fp,filesize($xmlfile));
fclose($fp);
preg_match_all(
"/<item><title>(.*?)<//title><link>(.*?)<//link>/i",$data,$out,PREG_SET_ORDER);
foreach($out as $key => $v)
{
$v[1] = iconv('gbk','utf-8',$v[1]);
echo "
<div class=/"newsline/">·<a title=/"$v[1]/" href=/"$v[2]/" target=/"_blank/">$v[1]</a></div>
";
}
}

jeremychin

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
PHP应用正则表达式分析RSS

最近做了一个读取中国新闻网RSS的页面。首先是把RSS文档下载下来保存到本地$xmlfile = news/.date(YmdH)..xml; $sourcexml = http://www.chinanews.com.cn/rss/scroll-news.xml; if( !file_exists($xmlfile) ) { $str
复制链接

扫一扫

专栏目录