WordPress eXtended Rss (WXR)文件格式解析

Sina2WordPress的第一步——解析WXR文件格式 WXR是Wordpress eXtended Rss的缩写,是WordPress针对博客信息特意设定的格式,它最大的优点是兼容性好,包含信息丰富 通过参照导出的文件,初步找到一个完备集(见下方代码),经测试在WP无任何内容情况下无信息缺漏错误现象 下方代码已经尽可能的注释了所有可能的标签和属性,并且由于一些标签和属性与Sina2WordPress关系不大,故未深究。

<?xml version="1.0" encoding="UTF-8" ?>
 
<rss version="2.0"
	xmlns:excerpt="http://wordpress.org/export/1.1/excerpt/"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:wp="http://wordpress.org/export/1.1/"
>
<!--RSS版本号和名字空间的扩展,以上为固定内容-->
 
<channel>
	<title>Blog Title</title>
	<!--博客的标题-->
	<link>http://blog.example.com</link>
	<!--博客的链接-->
	<description>Blog Description</description>
	<!--博客的说明/副标题-->
	<pubdate>Dec, 20 Jun 2012 23:59:59 +0000</pubdate>
	<!--WXR文件生成时间-->
	<language>en</language>
	<!--博客的语言,en / zh-cn-->
	<wp:wxr_version>1.1</wp:wxr_version>
	<!--WXR格式版本号-->
	<wp:base_site_url>http://example.com</wp:base_site_url>
	<!--网站根目录地址-->
	<wp:base_blog_url>http://blog.example.com</wp:base_blog_url>
	<!--博客根目录地址-->
 
	<wp:author><wp:author_id>1</wp:author_id><wp:author_login>admin_test</wp:author_login><wp:author_email>admin@example.org</wp:author_email><wp:author_display_name>< ![CDATA[AdMin test]]></wp:author_display_name><wp:author_first_name>< ![CDATA[AdMin]]></wp:author_first_name><wp:author_last_name>< ![CDATA[test]]></wp:author_last_name></wp:author>
	<!--
		作者列表,可多个
		wp:author_id:自增序号
		wp:author_login:用户名
		wp:author_email:邮箱
		wp:author_display_name:显示的作者名称
		wp:author_first_name、wp:author_last_name:如字面意,可为空,但需有<![CDATA[]]>
		P.S.< ![CDATA[**]]>可以理解成强制文本转换,保留文本中所有字符,以避免非法字符对XML文件的影响(后文不再赘述)
	-->
 
	<wp:category><wp:term_id>1</wp:term_id><wp:category_nicename>category_test</wp:category_nicename><wp:category_parent></wp:category_parent><wp:cat_name>< ![CDATA[分类测试]]></wp:cat_name></wp:category>
	<!--
		分类列表,可多个
		wp:term_id:自增序号,且分类和标签用的是同一个
		wp:category_nicename:URL友好名称,作为相关URL的一部分
		wp:category_parent:父分类,无即为空
		wp:cat_name:显示的分类名称
	-->
	
	<wp:tag><wp:term_id>2</wp:term_id><wp:tag_slug>tag_test</wp:tag_slug><wp:tag_name>< ![CDATA[标签测试]]></wp:tag_name></wp:tag>
	<!--
		标签列表,可多个
		wp:term_id:自增序号,与标签使用同一个序列
		wp:tag_slug:URL友好名称,作为相关URL的一部分
		wp:tag_name:显示的标签名称
	-->
	
	<generator>http://wordpress.org/?v=3.1.3</generator><!--WXR文件生成工具的标识-->
 
	<item><!--页面或者日志内容,每个为一个item-->
		<title>Title</title>
		<!--标题-->
		<link>http://blog.example.com/title/</link>
		<!--URL地址-->
		<pubdate>Thu, 15 Apr 2010 23:20:03 +0000</pubdate>
		<!--发布时间-->
		<dc:creator>admin</dc:creator>
		<!--文章作者-->
		<guid isPermaLink="false">http://blog.example.com/?page_id=1</guid>
		<!--
			GUID 意为 Global Unique IDentification,即全局唯一标识
			isPermaLink="false" 指示该地址非合法URL地址的属性
		-->
		<description></description>
		<content:encoded>< ![CDATA[Content_test_1]]></content:encoded>
		<!--这里是正文内容-->
		<excerpt:encoded>< ![CDATA[]]></excerpt:encoded>
		<!--文章摘录,供RSS/Atom使用,一般为空-->
		<wp:post_id>2</wp:post_id>
		<!--页面或日志的序号,两者使用同一序列-->
		<wp:post_date>2012-12-21 07:59:5</wp:post_date>
		<!--发表时间-->
		<wp:post_date_gmt>2010-12-20 23:59:59</wp:post_date_gmt>
		<!--发表时间(GMT)-->
		<wp:comment_status>open</wp:comment_status>
		<!--评论开启情况,open / closed-->
		<wp:ping_status>closed</wp:ping_status>
		<!--Ping开启情况,open / closed-->
		<wp:post_name>blog_title</wp:post_name>
		<!--URL友好的名称-->
		<wp:status>publish</wp:status>
		<!--页面或日志状态,publish / draft / pending / private-->
		<wp:post_parent>0</wp:post_parent>
		<!--只用于页面,指示父页面的id-->
		<wp:menu_order>0</wp:menu_order>
		<!--只用与页面,作为导航时的排序权值-->
		<wp:post_type>post</wp:post_type>
		<!--文章类型,post / page-->
		<wp:post_password></wp:post_password>
		<!--文章是否加密-->
		<wp:is_sticky>0</wp:is_sticky>
		<!--文章是否置顶,0 / 1-->
 
		<category domain="post_tag" nicename="tag_test">< ![CDATA[Tag Test]]></category>
		<category domain="category" nicename="category_test">< ![CDATA[Category]]></category>
		<!--
			日志或页面的标签和分类,可多个
			domain:标签对应post_tag,分类对应category
			nicename:对应标签或分类的URL友好名称
			<![CDATA[]]>:标签或分类的显示名称
		-->
 
		<wp:postmeta><!--日志或页面的元数据,可多个-->
			<wp:meta_key>_edit_last</wp:meta_key>
			<!--元数据的关键字-->
			<wp:meta_value>< ![CDATA[1]]></wp:meta_value>
			<!--元数据对应关键字的值-->
		</wp:postmeta>
 
		<wp:comment><!--评论,可多个-->
			<wp:comment_id>1</wp:comment_id>
			<!--自增序号,评论专用-->
			<wp:comment_author>< ![CDATA[anonymous]]></wp:comment_author>>
			<!--评论者用户名-->
			<wp:comment_author_email>anonymous@anonymous.com</wp:comment_author_email>
			<!--评论者邮箱-->
			<wp:comment_author_url>http://blog.anonymous.com</wp:comment_author_url>
			<!--评论者链接-->
			<wp:comment_author_ip>8.8.8.8</wp:comment_author_ip>
			<!--评论者IP-->
			<wp:comment_date>2012-12-21 07:59:59</wp:comment_date>
			<!--评论时间-->
			<wp:comment_date_gmt>2012-12-20 23:59:59</wp:comment_date_gmt>
			<!--评论时间(GMT)-->
			<wp:comment_content>< ![CDATA[Content of Comment]]></wp:comment_content>
			<!--评论内容-->
			<wp:comment_approved>1</wp:comment_approved>
			<!--评论是否被允许-->
			<wp:comment_type></wp:comment_type>
			<!--评论类型,空白表示一般评论,否则会标记位pingback-->
			<wp:comment_parent>0</wp:comment_parent>
			<!--父评论,指定所回复的评论-->
			<wp:comment_user_id>0</wp:comment_user_id>
			<!--如果评论者为注册用户,这里会记录用户ID-->
		</wp:comment>
	</item>
</channel>
</rss>


转载于:https://my.oschina.net/ranvane/blog/391066

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
博客备份 可以解析备份博客的文章标题,文章类别,发表时间,文章正文,原文地址共五项内容。支持断点续传备份,支持增量备份,只备份最新博文。 多线程多用户 真正多线程博客下载备份,可以同时下载多个不同网站不同用户的博客,在软件里面可以实时查看每个博客内容,浏览每篇博客文章,包括文本和网页形式。 备份博客图片 可以备份博客文章中的图片,可以单独备份,也可以跟文章一起备份。导出的图片保存在备份文章之中,方便保存和阅读,直接浏览,无需连网,例如电子书chm,博客书word,web档案mht格式,都可以包含图片,无需连网。 支持众多的博客网站 支持国内各个大型的博客网站,例如新浪博客,网易博客,百度空间,QQ空间,搜狐博客等等。目前总共支持50个博客,详细目录附后。 微博备份 支持四大微博:新浪微博,搜狐微博,腾讯微博,网易微博。 支持多种读书网站 支持多种读书网站,包括:新浪读书,腾讯读书,网易读书,搜狐读书,中华网读书,凤凰网读书。 任意博客RSS备份 可以备份任意博客,只需要输入博客的RSS地址即可。 制作博客电子书 可以把下载的博客文章导出为流行的文档格式和样式,具体如下: 【1】电子书chm格式(纯文本)(chm):电子书格式, 使用纯文本样式 。 【2】电子书chm格式(含图片)(chm):电子书格式,保持博客原样,文件中含图片,无需连网,所有博客一个文件,方便阅读和珍藏。 【3】电子书chm格式(含图片,按文章类别分组)【强烈推荐】(chm):文件中含图片,无需连网,保持博客样式,按照文章类别进行分类,更加清晰,方便浏览。 【4】分页电子书(chm):可以设置分页,更适合微博电子书,更适合手机阅读,包含图片,保持博客样式。 【5】多个word格式(纯文本)(doc):自动排版,纯文本,每篇博文一个word文件。 【6】单个word格式(纯文本)【《博客书》】(doc):博客书格式,纯文本,自动排版,可直接打印成书。 【7】多个word格式(含图片)(doc):自动排版,文件中含有图片,无需连网,每篇博文一个word文件。 【8】单个word格式(含图片)【《博客书》】【强烈推荐】(doc):博客书格式,自动排版,文件中含有图片,无需连网,可直接打印成书。可以设置文件中图片大小,可以设置每篇文章是否分页显示。对于微博备份,可以不用分页。 【9】多个word格式(保持博客样式)(doc):保持博客的原样,使用网页内容,每篇博客一个word文件。 【10】单个word格式(保持博客样式)(doc):保持博客的原样,使用网页内容,所有博客一个word文件。 【11】多个网页格式(html): 保持博客原样,一篇博文一个文件。 【12】单个网页格式(html): 保持博客原样,所有博客都在一个网页文件中。 【13】多文本格式(txt):一篇博文一个文件。 【14】单文本格式(txt):所有博客都在一个文件中。 【15】Web档案格式【含图片】(mth):保持博客样式,含有图片,无需连网,每篇博客一个mht文件,比网页html格式好。 【16】RSS格式(xml):标准RSS2.0格式,方便文章上传和导入到其他系统。 【17】WordPress格式【绝对图片地址,不搬家图片】(.xml)【WXR文件,使用绝对图片地址,不用下载图片】 【18】WordPress格式【相对图片地址,可以搬家图片】(.xml)【WXR文件,使用相对图片地址,需要下载图片,导入wordpress时同时把下载的博客图片文件夹拷贝到wordpress网站根目录,这样图片也可以搬家。】 博客管理功能 可以管理下载的博客文章,包括查找博客文章,可以根据标题、正文、发表时间、文章分类的关键词来搜索博客。这样便于用户从大量的博客文章中搜索自己感兴趣的文章。 可以删除博客文章,可以修改博客文章。 支持多种导出选项 可以按照要求,有选择的导出文章标题,文章类别,发表时间,文章正文,原文地址等内容。可以按照发表的时间逆序或者正序导出。 编辑本段 附录 支持的博客列表 001. 新浪博客 002. 网易博客 003. 百度空间 004. 开心网 005. 人人网 006. 无名小站 007. blogspot 008. blog 009. LiveSpaces 010. 搜狐博客 011. 和讯博客 012. QQ空间 013. 时光网 014. 中国教育人博客 015. 大河博客 016. 39健康博客 017. 草根网 018. 嫣牛博 019. 歪酷博客 020. TechWeb博客 021. 播种网 022. 19楼空间 023. 文学博客网 024. 项目经理博客 025. 太平洋博客 026. ITPUB个人空间 027. 名师博客 028. 金融界博客 029.

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值