全文检索
网迷
这个作者很懒,什么都没留下…
展开
-
抓取
http://www.kuqin.com/searchengine/20110709/92191.html转载 2012-04-04 13:38:10 · 672 阅读 · 9 评论 -
学习xapian
XAPIAN学习1--倒排数据(库)建立,工厂模式应用 选择xapian是因为xapian的代码可读性更强,更接近现代C++风格,用户端代码很少需要直接和指针打交道而看了下lemur示例代码到处都是指针不太爽,呵呵,还是了解不多吧,总之从xapian开始吧。 xapian的索引建立 xapian提供多种不同的索引方式比如in memory, flnt格式的等待(具体没有仔细看)转载 2012-03-28 16:43:41 · 1043 阅读 · 9 评论 -
LDA
关键所在:it posits that each document is a mixture of a small number of topics and that each word's creation is attributable to one of the document's topics。 将文档看成是一组主题的混合,词有分配到每个主题的概率。 Probabilistic la转载 2012-07-06 11:54:04 · 2232 阅读 · 6 评论 -
Xapian 幾個細節
# Xapian 對大的 Database 更新會很慢。一開始我是對單一 Database 更新,結果更新的速度跟不上條目修改的速度 XD # 所以,我跟 far 稍微提過以後,決定用空間換取時間,以 ArticleID 拆開,一萬為一個單位把 Xapian Database 切成 n 個 DB 放在 NetApp 上,更新時是對這些小資料庫更新,最後再跑 xapian-compact 合併。這原创 2012-11-25 14:24:21 · 754 阅读 · 1 评论