![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
搜索相关
iteye_6416
这个作者很懒,什么都没留下…
展开
-
hadoop配置
所有的基本的配置,在下载下来的hadoop包中都有。hadoop-0.20.203.0\docs 1、下载hadoop,放到linux中 2、 修改以下配置文件。 conf/core-site.xml: <configuration><property><name>fs.default.name<...2011-06-10 16:58:28 · 67 阅读 · 0 评论 -
berkeleydb-je性能
前段时间使用berkeley时,初次尝试小数据量的添加和读取,100W左右的短数据,平均每条value大概20-50个汉字,性能是很不错的。要比mysql快很多,特别是插入速度。单条读取速度也很满意。结合lucene使用也是非常方便。 但是同时发现一个问题。同样的数据,当设置不同的log日志切分大小后,存储的文件大小相差很多。最多大概相差了大概1/5 .虽然能通过设置减少log...2011-04-20 17:47:14 · 399 阅读 · 0 评论 -
google的GSON
之前用的都是Struts2自带的JSON结合Jquery来用,从来没自己做过Object-JSon的转换,刚才大概看了一眼google code上的GSON,看到几个比较有用的类,写出来,免得周一用的时候忘了 经过昨天的使用,发现一些问题,写出来分享下,之前有很多的问题,免得被别人看见误人子弟 我的需求: 我用Spring整合的JSBC从数据库中读出的数据是L...2011-04-08 15:40:40 · 118 阅读 · 0 评论 -
新闻搜索
最近在做新闻频道的搜索,数据量1000W+,预计索引size在20G左右。百万数据量下用BerkeleyDB速度提升相当明显,但是上到千万时候,性能就没那多突出了。手机之家的设计方案网上也有,就是用的BerkeleyDB但是不能单纯使用,本来想做全文检索,但是数据量太大,性能有点问题。尽管可以通过其他手段拆分和优化,但是借着这个机会想用用hadoop,要不然可能没有机会了。...原创 2011-04-08 15:22:31 · 97 阅读 · 0 评论 -
berkeleydb-CRCD
最近发现berkeleydb还是不错的,存储相同的数据量,要比磁盘索引小得多,第一次用这样的非关系型数据库,写了个 基本操作的代码package com.berkeleydb.java;import java.io.File;import java.io.IOException;import org.apache.commons.io.FileUtils;imp...原创 2011-03-30 13:32:06 · 186 阅读 · 0 评论 -
Lucene的DateTools
年前最后2天班了,无聊写写博客吧Lucene提供的日期格式化类 DateTools默认是0时区,这样转换过去,时间应该少8小时。要是只用时间做排序或其他过滤,这个问题可以忽略,但要是需要展示。那么就需要重写一下 private final static TimeZone GMT = TimeZone.getTimeZone("[b]GMT[/b]"); pr...原创 2011-01-27 17:56:41 · 142 阅读 · 0 评论 -
高效搜索
实时搜索,最重要的就是效率,实时就意味着你只要有更新就要reopen,大量的reopen的效率是很低的,导致搜索变慢。 索引结构 fs+ramX2 更新最大问题就是delete操作,因为delete操作可能是磁盘的,要reopen这个大家伙需要时间会很长,所以要是用filterindexreader,过滤点删除的diocid,这要就不用reopen磁盘索引。 上面的步...原创 2011-09-09 11:53:16 · 102 阅读 · 0 评论 -
zoie学习
这个蹩脚的家伙我还没运行起来过,官网的资料少的可怜,代码结构不清晰,包划分让我蛋疼。 读了里面的代码,也是相当蹩脚(个人感觉),但是以上的认识不是藐视这个家伙,是恨铁不成钢啊。 zoie最核心的的部分可能就是 docid-uid的映射,和FilterIndexReader.这个思路很巧妙。但是也不能算是完美。ZoieMergePolicy也是个不错的东西,已被划归Luce...原创 2011-08-09 19:15:13 · 142 阅读 · 0 评论 -
Lucene4.0 FilterIndexReader
When coding LUCENE-2919 (PKIndexSplitter), Mike and me had the idea, how to effectively apply filters on the lowest level (before query execution). This is very useful for e.g. security Filters ...2011-07-07 12:18:27 · 124 阅读 · 0 评论 -
MongoDB测试
之前花过半天时间写了个MongoDB的CRUD的demo。使用起来还是相当简单的。了解到mongodb是通过“肉饼”的博客。看到之后就对nosql的数据库非常感兴趣。 目前数据量最大的新闻数据库(mysql)2000W。读取非常的慢。慢到有时候没法使用。所以今天测试下新闻数据。最初在winxp下内存2G,插入30W数据时,后台异常 error 8,mongodb数据1.5...2011-06-24 09:59:15 · 111 阅读 · 0 评论 -
团队管理
今天和一个创业阶段的老板聊了聊,突然感觉找到了一些共同点。 我们部门,在我刚入职的时候10个人左右,吃饭一张桌子,大家都是刚到公司不到1年左右的新员工。每天都开会,大家干劲十足。每天绞尽脑汁都想怎么把工作干好。我每天8小时,一心用在技术上。成长也是飞速的。 后来,部门的人越来越多,沟通成本骤增,和领导的工作重心转移,使得团队凝聚力不如之前,渐渐员工之间划分小团队。新员工和老员工之间...2011-06-14 18:09:16 · 100 阅读 · 0 评论 -
berkeleydb-je数据膨胀问题
搜索服务运行了3天,突然出现 Exception in thread "Timer-2" java.lang.RuntimeException: (JE 4.1.10) JAVA_ERROR: Java Error occurred, recovery may not be possible. 原因还不知道,只是在一个英文论坛里找个些零碎信息,查看了一下,如果用FS存储,240MB...原创 2011-05-05 14:39:54 · 435 阅读 · 0 评论