xml中文档(query)的结构:
<topic>
<number>CIRB010TopicZH006</number>
<title>科索沃難民潮</title>
<question>
查詢科索沃戰爭中的難民潮情況,以及國際間對其採取的援助。
</question>
<narrative>
相關文件內容包括科省難民湧入的地點、人數,受安置的狀況,難民潮引發的問題,參與救援之國家與國際組織,其援助策略與行動內容之報導。
</narrative>
<concepts>
科省、柯省、科索沃、柯索伏、難民、難民潮、難民營、援助、收容、救援、醫療、人道、避難、馬其頓、土耳其、外交部、國際、聯合國、紅十字會、阿爾巴尼亞裔難民。
</concepts>
</topic>
文档列表的样子(file-list)
CIRB010/cdn/loc/CDN_LOC_0001457
CIRB010/cdn/loc/CDN_LOC_0000294
CIRB010/cdn/loc/CDN_LOC_0000120
CIRB010/cdn/loc/CDN_LOC_0000661
CIRB010/cdn/loc/CDN_LOC_0001347
CIRB010/cdn/loc/CDN_LOC_0000439
utf8
Copper
version
EGCG
432Kbps
RESERVECHARDONNAY
TommyHolloway
platts
Celeron266MHz
VOLKSWAGEN
INDEX
SmarTone
倒排文档的表示(inverted-file)
词库中词的行号1 词库中词的行号2(-1表示单个词,只考虑1)文档个数
文档在列表中的行数 词出现的次数
1 -1 2
33689 1
38365 1
2 -1 1
33256 1
2 12371 1
3325