关闭

solr中为pdf word excel等文档做索引和存诸时如何把回车空格等去掉

当用solr为pdf 或 word 或excel 等文件做索引时,当高亮时总会出现很多回车或空格占了很多空间,让搜索结果时长时短很不好看,而配设中又没有配置可以完成这项目功能,唯一可以实现的就是改源码! 我用的是solr4.7.2的源码去改,源码在以下网址找到 http://grepcode.com/snapshot/repo1.maven.org/maven2/org.apache....
阅读(718) 评论(0)

孩子出事了,父母怎么能不管呢!

今天好像csdn的微博有点问题,我有一句就只能在这里说了!我觉得我们平时写的代码就像我们的孩子一样,孩子出事了,父母怎么能不管呢!      就算其它人不把我当成是一个科学家,但我自己还是把自己当成是一个科学家!      程序员写的程序,就应该像厨师对待自己做的每一道菜,像医生对待自己的病人一样用心!...
阅读(408) 评论(0)

纠结了一晚想到的东西

我们这些做网站项目的前期都要投入大量的钱和劳动去吸引眼球,先让用户习惯你的产品、觉得你的产品好用、有口碑、认同你项目的价值。然后再想办法搞资金循环。让项目越做越大。       在过去我所参与过的项目都是过份地强调前者而突略后者,我从事互联网已6年多。今天回想过去,不免会为某些东西觉得惋惜!在过去做技术的、做产品的、做销售的都很努力,可是项目就是做不起来。今天晚上有可能是被某些事情给刺激了,...
阅读(485) 评论(0)

最简单的json联级下拉框(我自己写的)

我在网上找了很多json与联级下拉框(父子下拉框)结合的例子,有的用jquery去实现,但我觉得不用那么复习,其实可以简单点的! 最简单的json联级下拉框 var json=[{"CS_Id":"1","CS_FileType":".java","CS_Path":"/java/","CS_Name":"snatch"},{"CS_Id":"4","CS_FileType":".java...
阅读(644) 评论(0)

ThreadGroup其实比ExecutorService更好

用java做抓取的时候免不了要用到多线程的了,因为要同时抓取多个网站或一条线程抓取一个网站的话实在太慢,而且有时一条线程抓取同一个网站的话也比较浪费CPU资源。要用到多线程的等方面,也就免不了对线程的控制或用到线程池。…… 后来发现ExecutorService的功能没有想像中的那么好,而且最多只是提供一个线程的容器而然,所以后来我用改用了java.lang.ThreadGroup,ThreadGroup有很多优势,最重要的一点就是它可以对线程进行遍历,知道那些线程已经运行完毕,还有那些线程在运行。...
阅读(505) 评论(0)

我的职业

      程序员,程序员是干什么的呢?形像一点说就是:跟电脑沟通的人,把人家的工作或需求描述给电脑听,让电脑能自动帮我们工作、或自动帮我们按排一些事务。这个过程就叫做编程。       后来我终于明白,其实人生就是一个无止境的编程过程,一个不段地重新架构,需要变更,修改错误,系统优化的过程。其中我认为最磨练一个人意志,并且最困难的是排查错误的过程,需求变更、系统重构、系统优化等东西并不会很困难。当一个系统越来越大,越来越多人写,有用的东西又有,没用东西又有,这个人又提出这种需求,...
阅读(308) 评论(0)

求职回想

    3月25日星期五傍晚,我从广州坐轻铁回珠海,由于太夜,珠海北站没有公车.于是我打的回香洲,回到香洲后也是由于太夜没有车回井岸。我决定先走一段路然后找一间旅馆来休息一下,其实我很享受一个闲逛的感觉,这样会让我的心情很平静,我从车站那一条路一直向人民东路向前走。    那一晚真的很静,那一条很平静的马路,还有那些很黄很柔和的灯光,都让我的心很平静。走着走着,一座熟悉的建筑物出现在我面前——西海大厦,我在五年前就曾经在那里上过班。那时我还在那里实习php程序员,早上6点...
阅读(393) 评论(0)

几个NoSQL数据库的对比

    随着云计算的推进,Key/value的NoSQL数据库开始受到业界的重视,但市面上有很多NoSQL的开源项目,那究竟那一个NoSQL的数据库最适合你用呢?我们来看看下面的一些对比。 Cassandra:简介:Cassandra最初由Facebook开发,后转变成了开源项目。它是一个网络社交云计算方面理想的数据库。编写语言:java特点:以Amazon专有的完全分布式的Dynamo为基础,写的速...
阅读(813) 评论(0)

我的java数据抓取经验

本人担任职友集的java工程师五年,其中抓取数据占主要的一部分,抓取的信息只要有两部分,职位和简历,其中职位的抓取量为日均插入量为30万,更新量为60万,抓取全国300多个人才网站。职友集(现在改名为跳哪网)现在是全国职位量最高的垂直搜索引擎。月均广告收入约20万左右。当然这是经过我们团队的努力。     我们在职位抓取方面是下了很大的一番功夫,使我们的职位量无法被人超越,首先现在很多人才网站为人防止其它网站抓取它的信息,都在封IP,尤其是中华英才网,我们为了向我们的用户...
阅读(1526) 评论(2)
  个人资料
  • 访问:7660次
  • 积分:205
  • 等级:
  • 排名:千里之外
  • 原创:9篇
  • 转载:0篇
  • 译文:0篇
  • 评论:2条
  文章分类
  最新评论