第一次投了一篇一作的文章,虽然是中文期刊,虽然未完成,但依然有很多东西要好好总结一下

原先的打算就是,攒些经验,关于实验,关于写文章

最重要的收获,大概是写各种脚本做实验,比较好用的文本处理工具:awk,sed

最崩溃的事,Mahout里的KMeans的性能基本跟程序运行时的迭代次数正相关,但同样的输入,运行的结果可能会相差数倍,于是,各种实验的不可重复性。。

最后没有完成文章,感觉有好多东西需要在平时积累,比如对Hadoop系统本身的理解(通过看源码和其他的一些方式,尽量补上这个漏洞),比如Related work(平时要多看,多想,多总结),比如Latex(这次只有Word的模板,所以,华丽丽地悲剧了。。Word绝对是神仙才Hold得住的软件)实验工具,画图的工具的熟练程度(最后用Visio画的流程图,数据图方面,粗看了一下matplot,貌似支持中文字体会很折腾,于是用了GNUplot,各种折腾,踉踉跄跄地画了各种图,虽然,有点丑。。)

总之还是熟练程度的问题多一些,所以,无他,继续努力吧~~

拖了好久才完成的,好像只记得这些了,有的话,再补吧。。