信息检索(web IR)
文章平均质量分 71
無菌與
To the time to life, rather than to life in time
展开
-
Page rank
Implement pageRank algorithm in python run : ./**.py -o output file -d dumping factor -e epsilon infile date format: first line: max node number the left lines: node id : link node count, node id原创 2015-06-03 12:09:23 · 594 阅读 · 0 评论 -
向量空间模型实现文档查询(Vector Space Model to realize document query)
xml中文档(query)的结构: CIRB010TopicZH006 科索沃難民潮 查詢科索沃戰爭中的難民潮情況,以及國際間對其採取的援助。 相關文件內容包括科省難民湧入的地點、人數,受安置的狀況,難民潮引發的問題,參與救援之國家與國際組織,其援助策略與行動內容之報導。 科省、柯省、科索沃、柯索伏、難民、難民潮、難民營、援助、收容、救援、醫療、人道、避難、馬其頓、土耳其、外交部、國原创 2015-06-04 20:43:24 · 1508 阅读 · 0 评论 -
Near-duplicate Detection(文章相似度计算)
近一个月主要研究文本内容的相似度 考虑的主要方法为: jaccard distance cosine similarity simHash minHash some tricks:simple but efficient simhash: 官方的simhash并不大支持中文: 中文版并不支持索引 没有索引的simhash不算simhash哈 因此直接利用官方的,原创 2015-08-15 22:33:17 · 937 阅读 · 0 评论