网络爬虫
Dwong123
我对一切太喧嚣的事业和太张扬的感情总是心存怀疑,它们总是使我想起了莎士比亚对生命的嘲讽:“充满了声音和狂热,里面空无一物。”
展开
-
词权重计算及应用
原文地址:http://blog.csdn.net/yangzhongblog/article/details/8723771#comments本文讨论如何计算词(有时候称特征向量)权重和向量空间模型及其应用。本文的“文档”是指查询对象,它们可以使一条条单独的记录或者是一本书的各章,还可以是一个网页,或者xml文件等。1 归一化 在讨论词权重和向量空间模型前需要先了解下归一化的概念。归一化转载 2016-09-14 10:47:07 · 881 阅读 · 0 评论 -
基于Lucene的分词原理和方式
原文地址:http://blog.csdn.net/u010366796/article/details/44936859 同时也可以参考小鸡慢慢的这篇博客:基于lucene的案例开发:分词器介绍lucene的分词_分词器的原理讲解几个默认分词SimpleAnalyzer StopAnalyzer WhitespaceAnalyzer(根据空格分词) StandardAnalyzer 分词流程Re转载 2016-09-18 17:22:42 · 483 阅读 · 0 评论