- 博客(2)
- 收藏
- 关注
原创 POS Tagging
POS tagging:part-of-speech tagging, or word classes or lexical categories. 说法很多其实就是词性标注。那么用nltk的工具集的off-the-shelf工具可以简单的对文本进行POS tagging>>> text = nltk.word_tokenize("And now for something completely different")>>> nltk.pos_tag(text)[('And', 'C
2010-08-26 17:35:00 24953 1
原创 索引构造
顾名思义这章就是要谈怎样构造索引的问题,或者说在有限内存和有限时间内,怎么样高效的对大数据集构造索引文件。一旦有了这个索引文件,那么索引的压缩,基于索引的排序,前面的章节都已经讲过。链接列表先来看看最一般的方法,在内存中构建这样的数据结构,包含一个term字典,这个字典本身可以用数组,hash表,二分查找树来实现,字典中的每项,都包含一个指向term的倒排列表的指针,那么对于一个term的倒排列表一般用单项链表来实现,因为这个是动态的,就是说每一项包含文档号,文档内频率,和下一项指针。然后遍历每一篇文档,对
2010-08-06 17:47:00 1418
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人