Native Rss Reader 的资料

最新推荐文章于 2024-08-24 09:00:20 发布

双刃剑客

最新推荐文章于 2024-08-24 09:00:20 发布

阅读量1.3k

点赞数

分类专栏：工作经验文章标签： rss 文档 xml encoding null string

工作经验专栏收录该内容

132 篇文章 2 订阅

订阅专栏

转:http://hi.baidu.com/mikyliang/blog/item/11d420d3135832013af3cf19.html
RSS文档的构成

2007-05-04 14:58

RSS文档的构成：

一个RSS聚合由频道(channel)以及频道中包含的项目(item)组成
RSS遵从XML1.0标准进行标注
其头部一般应该是这样的：
<?xml version="1.0"?>          /*遵从的XML标准*/
<rss version="2.0">            /*遵从的RSS标准*/
<channel>                     /*频道标志*/

文件的结尾应该由下面的内容结束
</channel>
</rss>
在头部和尾部之间，就是RSS的内容了。RSS中
channel(频道)必须包含的元素是：
<title>              /*频道的题目*/
<link>               /*连接地址*/
<description>        /*对频道的描述*/
可选的参数包含：
<language>           /*语言比如UTF－8、GB2312*/
<copyright>          /*版权信息*/
<managingEditor>     /*主要的维护者EMAIL*/
<webMaster>          /*网站管理者的EMAIL*/
<pubDate>            /*出版日期*/
<lastBuildDate>      /*最后建立日期*/
<category>           /*内容*/
<generator>          /*生成器*/
<docs>               /*文档的连结地址*/
<cloud>              /*这个解释起来有点难，她是对xml-rpc(远程过程调用）和soap（简单对象访问协议）的描述信息，能够使客户端软件注意到RSS的文档更新，就是所谓“推”的技术吧，一个服务器（被称作"cloud")提供一个RSS文档的更新公告，当一个文档被更新，这个服务器呼叫所有订阅的客户机注意最新的更新。一个例子<cloud domain="rpc.sys.com" port="80" path="/RPC2" registerProcedure="myCloud.rssPleaseNotify" protocol="xml-rpc" />*/
<ttl>                   /*存活时间，这个频道被源刷新之前被缓存的时间*/
<image>                 /*图像*/
<rating>                /*图像的等级？速率，文档中描述不是很清楚或我没有理解*/
<textInput>             /*一个输入框，主要用来提供一个搜索引擎或提供一个读者反馈的的输入框，但很多的聚合器会忽略它*/
<skipHours>            /*给聚合器的一个忽略时间提示，多长时间他们可以跳过*/
<skipDays>             /*给聚合器的一个忽略日期提示，多长时间他们可以跳过*/
在频道描述完毕后，接下来应该对rss聚合中的主要内容项目进行描述
一个项目有<item></item>包含其中的内容就是这个项目的信息
一个item项目必须包含下面这些元素
<title>                   /**/
<description>                   /**/
<link>                   /**/
可以选择的元素包括
<author>                   /*作者*/
<category>                   /*分类*/
<comments>                   /*注释*/
<enclosure>                   /*附件，(还可以包含一个多媒体附件呢)，比如：<enclosure url="http://www.scripting.com/mp3s/weatherReportSuite.mp3" length="12216320" type="audio/mpeg" />*/
<guid>                   /*唯一描述符*/
<pubDate>                   /*出版时间*/

<source> /*源*/

http://dev.uphoneapp.com/doc/view.xhtml?id=52265

Rss Reader实例开发之Xml与RSS解析

我们在《JSON格式解析和libjson使用简介》中介绍了JSON格式的解析，这里将介绍下一个更普遍使用的网络数据交换格式XML，及基于XML语言而扩展出来用于内容聚合的格式规范RSS，并结合实例介绍下XML/RSS的解析与生成。

XML简介：

XML（Extensible Markup Language）即可扩展标记语言，它是由一系列的自定义的标签和数据组成，是被设计用来结构化、存储以及传输信息，在形式上与HTML很类似，最大的区别是XML的标签都是自定义的。XML标签是区分字母大小写的，所有的XML元素都必需有关闭标签，如：〈abc〉〈/abc〉或写成〈abc /〉。

XML 元素指的是从（且包括）开始标签直到（且包括）结束标签的部分。元素可包含其他元素（即子元素）、文本或者两者的混合物。元素也可以拥有属性，属性值须加引号，如attr=”XXX”，元素中每个属性间用空格分隔。

XML 文档由XML序言开始，XML序言是描述该文档的并有一个包含其他所有元素的父元素，该元素称为根元素/文档元素。

        
    
<xml  version="1.0"encoding="UTF-8"standalone="no"?>
<root>  
  <child1 subNum=”3”>  
    <subchild1>1st text</subchild1>
    <subchild2>2nd text</subchild2>
    <subchild3>3rd text</subchild3>
  </child1>
  <child2>  
    <subchild4>4th text</subchild4>
  </child2>
root>

〈root〉便是这XML文档的根元素，根元素下面有两了元素：〈child1〉与〈child2〉，而〈child1〉元素下面又有三个子元素〈subchild1〉、〈subchild2〉和〈subchild3〉，这三个元素下面不再有子元素了，都是包含了文本内容。〈child1〉还有一个subNum属性，其值是3。

可以看出XML是以一种树结构来组织数据的。每个元素便是一个节点，元素的子元素便是这个节点的子节点，元素的文本内容就是这棵树的叶子。所以上例可以用一棵树状结构来描述，请看下图：

在RssReader中使用XML：

在对XML有了一个基础认识，就可以在这基础上使用它，接下来就介绍一下如何在代码中解析和生成一份XML文档。网络上有很多优秀的解析/生成XML文档的开源库，如：libxml、TinyXML等，这里我们选择了TinyXML，主要是因为TinyXML对中文的支持比libxml好。TinyXML是一款简单小巧的C++ XML解析器，使用文档对象模型（DOM），不支持文档类型定义（DTDs）和可扩展样式表语言（XLSs）。

TinyXML支持两种方式的字符串处理，一种是使用STL的std::string类型及其流操作，一种是TinyXML自定义的String类型及操作。由于沃Phone平台使用的是android的编译器，而android的编译器是不支持STL的部分功能，如其流操作等，所以我们要在沃Phone平台上正常使用TinyXML，那么就要将tinyxml.h文件中的宏定义（TIXML_USE_STL）给注释掉，这样在编译时就会选择使用TinyXML自定义的String类型及操作。如下代码：

       
   
//#define TIXML_USE_STL 
#ifdefTIXML_USE_STL 
    #include 〈string〉 
    #include 〈iostream〉 
    #include 〈sstream〉 
    #define TIXML_STRING std::string 
#else 
    #include"tinystr.h" 
    #defineTIXML_STRING TiXmlString 
#endif 

如此修改之后，就可以在交叉编译时顺利通过了。

在TinyXML中有如下所列的类与上图中的各节点概念相对应：
1、TiXmlDocument：对应上图中的XML file节点，代表整份文档；
2、TiXmlDeclaration ：对应上图中的XML序言节点，它表示文件的声明部分；
3、TiXmlComment ：是一个注释类，它表示文件的注释部分；
4、TiXmlElement ：对应上图中除XML序言节点外的所有白色椭圆节点（从root到subchild[n]），它是文件的主要部分，并且支持嵌套结构；
5、TiXmlAttribute/TiXmlAttributeSet ：元素属性，它一般嵌套在元素中，用于记录此元素的一些属性，对应上图中的subNum的白色矩形框；
6、TiXmlText ：对应上图中的绿色椭圆节点，文本对象，它嵌套在某个元素内部；

下面就介绍一下如何使用TinyXML来解析XML文档：
一切都是从TiXmlDocument对象开始的，也就是说要先new一个TiXmlDocument对象，再调用相应的Load方法将文档内容装载到TiXmlDocument对象中。而这个过程又可分成两种方式：
1、先创建一个空的TiXmlDocument对象，再调用LoadFile(“文档路径”)装载，如：

       
   
TiXmlDocument* pTiXmlDoc =newTiXmlDocument();  
if(pTiXmlDoc) 
{ 
      pTiXmlDoc->LoadFile (“test.xml”)； 
}

2、在创建对象时就在构造函数中传入文档路径，再调用LoadFile()装载，如：

       
   
TiXmlDocument* pTiXmlDoc =newTiXmlDocument(“test.xml”);
if(pTiXmlDoc) 
{ 
     pTiXmlDoc->LoadFile ()； 
}

第一种方式中，又根据传入的参数类型与数量不同而分为下面3个API：

       
   
bool LoadFile( TiXmlEncodingencoding= TIXML_DEFAULT_ENCODING);
bool LoadFile(constchar* filename, TiXmlEncodingencoding = TIXML_DEFAULT_ENCODING);
bool LoadFile( FILE*, TiXmlEncodingencoding= TIXML_DEFAULT_ENCODING);

在RssReader中对TinyXML扩展了三个API：

       
   
bool LoadFileTG3( TiXmlEncodingencoding= TIXML_DEFAULT_ENCODING);
bool LoadFileTG3( Handlefile, TiXmlEncodingencoding= TIXML_DEFAULT_ENCODING);
bool LoadFileTG3( constTUChar* _filename, TiXmlEncodingencoding= TIXML_DEFAULT_ENCODING);

在装载数据成功后，我们就可以从这个DOM结构中提取我们关心的数据。首先先获取文档的根元素：
TiXmlElement* pTiXmlRootElem = pTiXmlDoc->RootElement();
TinyXML是基于树状结构的，所以我们需要通过TiXmlElement类的FirstChildElement（key）方法一级一级地获取下一级元素的指针，如：
TiXmlElement* pTiXmlElem = = pTiXmlRootElem->FirstChildElement("child1");
如果要获取child1节点的属性值subNum，则需要调用Attribute（key, value），其中value为[out]型参数，是把属性key对应的值放到value中，如：
Int32 nValue = 0;
pTiXmlElem->Attribute("subNum", &nValue);
而如果某个元素下面全部/部分子元素的key为一样的话（可以理解成数组），我们可以使用TiXmlElement指针及FirstChildElement（key）与NextSiblingElement（key）来遍历该元素的所有子元素，如：

       
   
TiXmlElement* pCur = NULL; 
for (pCur = pTiXmlRootElem->FirstChildElement("item"); pCur; pCur = pCur->NextSiblingElement("item"))
{ 
         //TODO 
}

而最终获取元素的文本内容时，是使用GetText()方法。下面就举个RssReader中用于解析RSS文档中前面若干条新闻ITEM的一个例子：

       
   
void TMainPageData::LoadDataFromXmlFile(TUChar* pszFilePath)
{ 
    TiXmlDocument* pTiXmlDoc = NULL; 
    TiXmlElement* pTiXmlRootElem = NULL; 
  
    //创建一个TiXmlDocument对象 
    pTiXmlDoc = new TiXmlDocument();
    if (pTiXmlDoc) 
    { 
        //装载pszFilePath文件中的数据 
        if (pTiXmlDoc->LoadFileTG3(pszFilePath))
        { 
            //获取根元素 
            pTiXmlRootElem = pTiXmlDoc->RootElement(); 
            if (pTiXmlRootElem && (pTiXmlRootElem = pTiXmlRootElem->FirstChildElement("channel")))
            { 
                char* pszEncoding ="utf-8";
                TiXmlElement* pTiXmlElem = NULL; 
                TiXmlElement* pCur = NULL; 
  
                //遍历channel元素下的key 为“item”的元素
                for (pCur = pTiXmlRootElem->FirstChildElement("item"); pCur;
                    pCur = pCur->NextSiblingElement("item"))
                { 
                    //只取MAIN_PAGE_SHOW_NEWS_NUM条item
                    if (m_aHotNews.size() < MAIN_PAGE_SHOW_NEWS_NUM)
                    { 
                        NewsItemData* pNewsItem = new NewsItemData;
  
                        //获取item的title  
                        pTiXmlElem = pCur->FirstChildElement("title");
                        if (pTiXmlElem)
                        { 
                            //将title值转成Unicode编码，并new一块内存用于存放该
                            //Unicode编码的title
                            pNewsItem->pszTitle = MakeNewCopy2Unicode(pTiXmlElem->GetText(), pszEncoding);
                        } 
                        pTiXmlElem = pCur->FirstChildElement("link");
                        if (pTiXmlElem)
                        { 
                            pNewsItem->pszLink = MakeNewCopy(pTiXmlElem->GetText());
                        } 
                        pTiXmlElem = pCur->FirstChildElement("pubDate");
                        if (pTiXmlElem)
                        { 
                            pNewsItem->pszTime = MakeNewCopy(pTiXmlElem->GetText());
                        } 
                        pTiXmlElem = pCur->FirstChildElement("guid");
                        if (pTiXmlElem)
                        { 
                            pNewsItem->pszGuid = MakeNewCopy(pTiXmlElem->GetText());
                        } 
                        pTiXmlElem = pCur->FirstChildElement("description");
                        if (pTiXmlElem)
                        { 
                            pNewsItem->pszDesc = MakeNewCopy(pTiXmlElem->GetText());
                        } 
  
                        m_aHotNews.push_back(pNewsItem);  
                    } 
                } 
  
                pTiXmlRootElem = NULL; 
            } 
        } 
  
        delete pTiXmlDoc; 
        pTiXmlDoc = NULL; 
    } 
}

上面这段代码是实现将指定文件路径的XML文档解析并提取其中部分数据，存放到m_aHotNews的vector变量中。

当然TinyXML还提供一种使用句柄提取数据的方式，不过这里就不作介绍，只是取个例子，如：

       
   
TiXmlHandle docHandle( &document ); 
TiXmlElement* child2 = docHandle.FirstChild( "Document" ).FirstChild("Element" ).Child("Child", 1 ).ToElement();
if ( child2 ) 
{ 
       //TODO 
}

使用TinyXML来生成并保存XML文档：
生成一棵XML树（文档），其中的诸多工作基本可以归纳为可递归的三个步骤：
1、创建/new一个节点对象；
2、设置节点对象的属性值；
3、建立节点与子节点间的连接；

最终将文档保存到本地时，只要调用SaveFileTG3（"文档路径"）方法。例子代码如下：

       
   
TiXmlDocument* pTiXmlDoc = NULL; 
TiXmlElement* pTiXmlRootElem = NULL; 
TiXmlText* pTiXmlText = NULL; 
  
pTiXmlDoc = new TiXmlDocument();
if (pTiXmlDoc) 
{ 
    //创建根节点 
    pTiXmlRootElem = new TiXmlElement("root");
    if (pTiXmlRootElem)  
    { 
    //将根节点连接到TiXmlDocument对象中 
    pTiXmlDoc->LinkEndChild(pTiXmlRootElem); 
  
    //创建child节点 
    TiXmlElement* pTiXmlElem = new TiXmlElement("child1");
    if (pTiXmlElem)
    { 
        //将child1节点连接到根节点root  
        pTiXmlRootElem->LinkEndChild(pTiXmlElem); 
  
        //设置child1节点的属性subNum为3 
        pTiXmlElem->SetAttribute("subNum", 3);
  
        //创建叶子节点 
        pTiXmlText = new TiXmlText(“1st text”);
        if (pTiXmlText)
        { 
            //将叶子节点连接到child1节点上
            pTiXmlElem->LinkEndChild(pTiXmlText); 
            pTiXmlText = NULL; 
        } 
        pTiXmlElem = NULL; 
    } 
  
    pTiXmlRootElem = NULL; 
    } 
  
    //将文档保存到本地 
    pTiXmlDoc->SaveFileTG3(m_szFileFullName); 
    delete pTiXmlDoc; 
    pTiXmlDoc = NULL; 
}

RSS简介：

RSS为Really Simple Syndication（简易供稿）的缩写，也叫聚合内容，通常在时效性比较强的内容上使用RSS订阅能更快速获取信息，网站提供RSS输出，有利于让用户获取网站内容的最新更新。RSS，原意是把网站内容如标题、链接、部分内文甚至全文转换为可延伸标示语言(XML：eXtensible Markup Language)的格式，以向其它网站供稿。

其实RSS文档就是一份有自身规范的XML文档，通用的RSS文档格式如下：

        
xml version="1.0"?>
 
<rss version="2.0">
 
<channel>
    
    <title>Lift Off Newstitle>
 
    <link>http://liftoff.msfc.nasa.gov/link>
 
    <description>Liftoff to Space Exploration.description>
 
    <language>en-uslanguage>
 
    <pubDate>Tue, 10 Jun 2003 04:00:00 GMTpubDate>
 
    <lastBuildDate>Tue, 10 Jun 2003 09:41:01 GMTlastBuildDate>
 
    <docs>http://blogs.law.harvard.edu/tech/rssdocs>
 
    <generator>Weblog Editor 2.0generator>
    <managingEditor>editor@example.commanagingEditor>
    <webMaster>webmaster@example.comwebMaster>
 
    <ttl>5ttl>
    
    <item>
        
        <title>Star Citytitle>
 
        <link>http://liftoff.msfc.nasa.gov/news/2003/news-starcity.asplink>
 
        <description>How do Americans get ready to work with Russians aboard theInternational Space Station? They take a crash course in culture, languageand protocol at Russia's Star City.description>
 
        <pubDate>Tue, 03 Jun 2003 09:39:21 GMTpubDate>
 
        <category>ITcategory>
 
        <author>bill@xxx.comauthor>
 
        <guid>http://liftoff.msfc.nasa.gov/2003/06/03.html#item573guid>
 
        <comments>http://news.mtc.sohu.com/news/channel/1/news/13604.html#commentscomments>
 
        <source>source>
 
        <enclosure>enclosure>
    item>
 
    <item>
        <title>Space Explorationtitle>
        <link>http://liftoff.msfc.nasa.gov/link>
        <description>Sky watchers in Europe, Asia, and parts of Alaska and Canadawill experience a partial eclipse of the Sun on Saturday, May 31st.description>Fri, 30 May 2003 11:06:42 GMTpubDate>
        <guid>http://liftoff.msfc.nasa.gov/2003/05/30.html#item572guid>
    item>
 
    <item>
        <title>The Engine That Does Moretitle>
        <link>http://liftoff.msfc.nasa.gov/news/2003/news-VASIMR.asplink>
        <description>Before man travels to Mars, NASA hopes to design new enginesthat will let us fly through the Solar System more quickly. The proposedVASIMR engine would do that.description>Tue, 27 May 2003 08:37:32 GMTpubDate>
        <guid>http://www.zhanghangfeng.cn/rss.xmlguid>
    item>
 
    <item>
        <title>Astronauts' Dirty Laundrytitle>
        <link>http://liftoff.msfc.nasa.gov/news/2003/news-laundry.asplink>
        <description>Compared to earlier spacecraft, the International SpaceStation has many luxuries, but laundry facilities are not one of them.Instead, astronauts have other options.description>Tue, 20 May 2003 08:56:02 GMTpubDate>
        <guid>http://liftoff.msfc.nasa.gov/2003/05/20.html#item570guid>
    item>
 
channel>
rss>

〈channel 〉及其子项〈item〉都有三项是一般拥有的元素：〈title〉、〈link〉和〈 description 〉，其它为可选。这只是一份一般情况下通用的格式，不同版本或不同的用途的RSS源的RSS格式会有所不一样，如：有的〈channel 〉下会有〈image〉、〈TextInput〉等标签，当然，我们也可按着RSS规范的精神来扩展一些功能，如在每个〈item〉中增加一项〈icon〉用来设定item的图标链接。

开源库MRss的使用：

在RSSReader项目中，用于解析/保存RSS格式的工具是mRss，mRss是一款开源库，现在官网上其最新版本是libmrss-0.9，它同时支持解析0.91、0.92、1.0和2.0四个版本的RSS格式。由于网络上下载的libmrss都是.c或.h为后缀的文件，而RSSReader项目中的C文件都是以.cpp为后缀的，所以我们在将libmrss里的C文件添加到项目中之前，要先把.c后缀改成.cpp。另外，我们还需要将源文件中的头部的宏定义给删/注释掉，删除的代码部分如下：

       
   
#ifdef HAVE_CONFIG_H 
    #include 
#else 
    # error Use configure; make; make install 
#endif

在做完以上两步工作，libmrss就可以在我们的RSSReader项目中编译通过了。不过这时的mrss在解析带中文的RSS格式还是有很多问题的，因为RSS是基于XML格式的，所以MRSS解析RSS文档时的做法是：先将RSS文档解析到DOM中，再从DOM中提取数据放到MRSS自定义的结构体中，MRSS在解析和生成RSS文档的逻辑过程如下图：

而mrss是使用libxml来解析XML的，而libxml对中文的支持问题很大，特别是GB编码的中文，所以我们需要对mrss中执行解析工作的文件mrss_parser.cpp大刀阔斧地修改一番，全部改成使用TinyXML来解析XML，这样就可以很好的支持中文了。至于具体如何修改，这里就不赘述了，已有修改后的源码（RSSReader/mrss）上传到社区，请自行下载使用。

对应RSS文档的格式，在mrss中声明了如下几个主要的结构体类型来组织和存储RSS中的数据：

       
   
typedef struct mrss_t mrss_t;
typedef struct mrss_item_t mrss_item_t;
typedef struct mrss_category_t mrss_category_t;
typedef struct mrss_hour_t mrss_hour_t;
typedef struct mrss_day_t mrss_day_t;

mrss_item_t、mrss_category_t、mrss_hour_t和mrss_day_t结构体类型都是链表结构，mrss_t是存放整个RSS文档数据的结构体类型，记录RSS的版本号、编码、标题等信息，以及指向mrss_item_t、mrss_category_t、mrss_hour_t和mrss_day_t结构体类型的链表的指针。其组织结构图如下：

mrss提供了丰富的API用于解析、保存、释放RSS数据等操作，
1、解析API，根据不同的数据源，分别提供了三种接口：
mrss_error_t     mrss_parse_url(char* url, mrss_t ** mrss);//用于解析网络上的RSS源
mrss_error_t     mrss_parse_file(char * file, mrss_t ** mrss);//用于解析本地文件
mrss_error_t     mrss_parse_buffer(char *buffer, size_t size_buffer, mrss_t ** mrss);//用于解析内存中的RSS数据
2、保存API：
mrss_error_t     mrss_write_file (mrss_t * mrss, char * file);//保存到本地文件
mrss_error_t     mrss_write_buffer (mrss_t *mrss, char ** buffer);//保存到内存
3、释放API：
mrss_error_t     mrss_free (mrss_generic_t     element);//释放内存
除了上述API，还有一些其它用途的API，如编辑功能的API等。

解析RSS的例子：

       
   
mrss_t* m_pRss = new mrss_t;
if(m_pRss) 
{ 
    MemSet(m_pRss, 0, sizeof(mrss_t));
    // 解析rss的xml文件 
    if (MRSS_OK == mrss_parse_file(pszRssFilePath, & m_pRss))
    { 
        mrss_item_t *pRssItem; 
        pRssItem = m_pRss->item; 
  
        //TODO： 
        //…… 
    } 
  
    //作用结束后，要释放 
    mrss_free(m_pRss); 
    delete m_pRss; 
    m_pRss = NULL; 
}

总结：

与JSON相比，一般情况下，传输相同信息量，使用XML格式比使用JSON格式产生的数据量大些。另外，在解析或生成XML格式文档也会比解析或生成JSON格式文档来的复杂一些。但是，XML格式的首尾标签对齐的形式，使其可读性和可编辑性会比JSON良好，所以XML常会用于需要人工阅读或编辑的情况下的数据存储和交换。