- 博客(3)
- 收藏
- 关注
原创 solr中为pdf word excel等文档做索引和存诸时如何把回车空格等去掉
当用solr的"/update/extract"方法为pdf 或 word 或excel 等文件做索引时,当高亮时总会出现很多回车或空格占了很多空间,让搜索结果时长时短很不好看,而配设中又没有配置可以完成这项目功能,唯一可以实现的就是改源码! 我用的是solr4.7.2的源码去改,源码在以下网址找到 http://grepcode.com/snapshot/repo1.maven.org/...
2015-10-20 17:36:07
160
原创 mongodb for hadoop
溺水的鱼(273654900) 9:57:37 sharing 溺水的鱼(273654900) 9:58:02 如果再慢, 就利用hadoop 溺水的鱼(273654900) 9:58:11 mongodb for hadoop 溺水的鱼(273654900) 9:58:36 sharing mongodb 可以提高效率 (り、夏执(1306628713) ...
2013-04-01 10:12:57
111
原创 我的java数据抓取经验
本人担任职友集的java工程师五年,其中抓取数据占主要的一部分,抓取的信息只要有两部分,职位和简历,其中职位的抓取量为日均插入量为30万,更新量为60万,抓取全国300多个人才网站。职友集(现在改名为跳哪网)现在是全国职位量最高的垂直搜索引擎。月均广告收入约20万左右。当然这是经过我们团队的努力。 我们在职位抓取方面是下了很大的一番功夫,使我们的职位量无法被人超越,首先现在很多人才网站为...
2010-12-15 23:51:12
120
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人