搜索引擎
文章平均质量分 85
老和与宇华霖
第一批会写程序的凡人
展开
-
solr基础知识
对solr1.4版本准备 下载地址:http://lucene.apache.org/solr 最新源码下载地址:https://svn.apache.org/repos/asf/lucene/dev/trunk 源码使用说明,使用ant构建, 命令:anttest 用于跑单元测试 ...原创 2010-12-27 15:43:18 · 118 阅读 · 0 评论 -
solr的索引和查询顺序
拜读了solr的部分源码,却急于弄明白solr的索引顺序和查询顺序,如下是探访结果. 所有的配置都在solr/example/solr/conf/schema.xml当中. <!-- 如下是对text类型的处理 --><fieldType name="text" class="solr.TextField" positionIncrementGap="100" ...2010-12-29 18:52:27 · 143 阅读 · 0 评论 -
随想:迅速取得海量数据之结构化数据
呵呵,要想瞬间取得需要的数据,比如新闻信息,而且能够分门别类进行分析,我想是一件非常有意义的事情.而数据的来源只能来自于互联网,只有这样才有数据挖掘的研究基础. 而互联网上的数据一般为不规则的数据,但也有规则的数据;从目前我看到过的搜索引擎当中,基于内容的搜索引擎一般都采取定向收集的方式,然后分析后放入到数据库当中,其中不凡有数据清洗的工作. 规则的数据一般是以RSS为主的数据源,...2011-05-11 10:09:57 · 287 阅读 · 0 评论 -
偷梁换柱:MMSeg4j借用庖丁解牛的词库
“……他不回答,对柜里说,“温两碗酒,要一碟茴香豆。”便排出九文大钱。他们又故意的高声嚷道,“你一定又偷了人家的东西了!”孔乙己睁大眼睛说,“你怎么这样凭空污人清白……”“什么清白?我前天亲眼见你偷了何家的书,吊着打。”孔乙己便涨红了脸,额上的青筋条条绽出,争辩道,“窃书不能算偷……窃书!……读书人的事,能算偷么?”接连便是难懂的话,什么“君子固穷”,什么“者乎”之类,引得众人都哄笑起来;店...2011-05-11 10:41:28 · 124 阅读 · 0 评论 -
抓取口碑网店铺资料
呵呵,只为自己玩,哈哈。 技术难度: 1)快速高效的抓取记录,并去重,和以后的增量抓取。 2)因为口碑网的联系方式是图片的,如何批量的完成OCR的转换 本文只是一个实验,不建议使用在项目当中,如下是部分代码。 涉及的开源代码: crawler4j AspriseOCR 资源包,把crawler4j所有jar...2011-04-11 10:56:42 · 296 阅读 · 0 评论 -
生成文本聚类java实现 (2)
呵呵,继续。 本节的学习内容: 4.从剩余的词中提取文本特征,即最能代表文本的词 5.用空间向量表示文本,空间向量需标准化,即将数值映射到-1到1之间 6.利用所获取的空间向量进行聚类分析 7.交叉验证 第四步,提取文本特征 本文使用KNN算法和SVM算法学习提取文本特征的思想。 研究最终目的。 训练材料:语料分类腐化...2011-04-12 10:02:00 · 329 阅读 · 0 评论