PALM Kdic,Zdic之维基百科简易制作教程

大家都知道,维基有大半年没更新了
我做好最坏打算自己写程序的思想准备,开始从年初开始研究做维基百科
经过几个月中,间断的好多次尝试了各种方法后
昨天终于找到了比较容易的制作方法(至少不需要写代码了嘛)
但是,前提是,维基的发布文件格式不变
好了,方法如下:
1,上维基网站下载最新的发布
引用:
wiki下载地址 xml格式 需要转才能用
http://download.wikimedia.org/zhwiki/
This contains current versions of article content, and is the archive most mirror sites will probably want.
选有这句话的bz2文件下就好
2,将下载下来的zhwiki-20070717-pages-articles.xml解压出来后,用文件分割工具分割成两段
  • 注1:文件分割工具也可以用文本分割工具,或者UltraEdit打开后将前后分段保存
  • 注2:我这次的两段,每段是300多MB,以后中文维基变大了后,估计要分更多段了
3,用UltraEdit或者类似的编辑器打开分段后的文件,将其断开处的条目整合。<page>和</page>要匹配。不管是整合到上一个文件还是下一个文件,匹配就行。
4,用tompda网友randax做的转换程序将文件分开的几个xml文件转换成Kdic格式的txt
  • 注:该java程序需要jet-410-pro-en-win32,网上很难下载,我将上传
5,用UltraEdit或者类似的编辑器将分开的txt合并到一起
6,合并后的txt添加词典信息(即在任意一行添加一个词条为空的词条,其将在输入框为空时显示),处理一些冗余的文字(比如redirect等,还有很多星号*)
7,用Kdic制作工具制作成词典(此过程漫长,建议使用NTFS分区,并压缩该分区。临时文件将有几十万到上百万个,制作时间取决于硬盘速度,估计需要半天时间)
 
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值