【旧】2004-1-27 13:53:44 软件技术前沿:关于XML和RSS(1) ——初步分析Newz Crawler

软件技术前沿:关于XML和RSS(1)  ——初步分析Newz Crawler

Newz Crawler不好用,对中文支持太差,headline经常变空,频道标题也变没了。
 看来还得自己写一个。

 昨晚研究了一下它的数据格式,比较简单。
 每个文件对应一个主文件夹,文件内容就是主文件夹里面的频道和其对应的文件名。
 如news.ncw

 每个频道对应feed目录下的一个文件
 {17C1E396-1C2F-4E34-B106-7940E3933454}.ncn

 xxx.ncn的内容就是标题和离线的数据。


 如果自己写,有几个问题需要仔细考虑

 1.数据存储的格式。如果数据量相当大的话,比如一年的离线数据,用单个文件存储是否恰当。

 2.新回贴如何处理。对于blog可能不是很重要,但对论坛来说比较关键,直接关系到论坛的人气和提问的效率。

 3.如何支持现有的论坛,尽量少改动现有代码。现有论坛大致分为两种风格。一种是平面型,所有的回贴都是跟在主贴后,仅有时间先后关系。另一种为树型结构,可以对回贴再进行回复,所有的回贴构成一个树。个人认为后一种人气比较高,比较符合自然的思维习惯,但是实现起来很麻烦。

 4.关于RSS协议分析和实现只是工作量的问题,不存在技术难度。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值