这几天的工作一直在围绕Hadoop进行,记录一些随手心得.
Hadoop有价值的部分:
1.HDFS
一个分布式的文件系统,我们的目标是用HDFS来完成数据的分布式保存和索引文件的分布式保存
2.Map/Reduce
用来做分布式运算,摆脱SQL的束缚,完全利用索引,来进行数据的检索.然后用Map/Reduce来进行我们需要的统计计算,利用分布式机制提高运算速度
Lucene,以前只是比较皮毛的接触过Lucene,这次会有一次比较深入的应用,利用Lucene的索引提高检索速度,并配合HDFS,将索引文件分布式存储
目前还一个很重要的工作,就是解决FreeBSD下diablo-jdk1.5的RandomAccess类的mode设置为rws不能正常工作的问题
http://lists.freebsd.org/pipermail/freebsd-java/2006-September/005670.html
参考资料:
http://lucene.apache.org/hadoop/
http://lucene.apache.org/java/docs/index.html
Hadoop有价值的部分:
1.HDFS
一个分布式的文件系统,我们的目标是用HDFS来完成数据的分布式保存和索引文件的分布式保存
2.Map/Reduce
用来做分布式运算,摆脱SQL的束缚,完全利用索引,来进行数据的检索.然后用Map/Reduce来进行我们需要的统计计算,利用分布式机制提高运算速度
Lucene,以前只是比较皮毛的接触过Lucene,这次会有一次比较深入的应用,利用Lucene的索引提高检索速度,并配合HDFS,将索引文件分布式存储
目前还一个很重要的工作,就是解决FreeBSD下diablo-jdk1.5的RandomAccess类的mode设置为rws不能正常工作的问题
http://lists.freebsd.org/pipermail/freebsd-java/2006-September/005670.html
参考资料:
http://lucene.apache.org/hadoop/
http://lucene.apache.org/java/docs/index.html