2009年03月20日
这段时间一直都很忙,因为除了毕业论文外,还在准备参加一个数据库开发的比赛。不过我们可不是用数据库,而是真正地开发数据库系统DBMS。硕士阶段做的东西主要是Data Mining,KDD方面的比较多。而数据库DBMS应该更多倾向于是System方向。港科大的同学也提议我应该可以去尝试做做System方面,因为我在做系统实现方面还是有一定的经验和技术。07年在微软的时候,做的东西也是偏向于System,这块领域的确是很实在,做出来的东西都是直接影响工业界和社会的。后来发现,诸如MIT,Berkerley等牛校在数据库方面都是做System较多。Data Mining,KDD则更多是偏向于机器学习,需要更多的数学理论,而非编程技巧。我本人在此之前发表的3篇学术论文也都是Data Mining方面(我的主页http://cs.scu.edu.cn/~tangliang上可以直接下载到pdf)。虽说自己的研究方向是数据库与数据挖掘,其实学了3年下来,感觉无论是数据库还是数据挖掘都学得不太好。数据挖掘是一个很大的领域,硕士3年学不好情有可原。而数据库系统,从本科就在学习,到了硕士阶段又学了一次,阅读全文>
发表于 @ 2009年03月20日 22:56:00|评论(loading...)|编辑|举报|收藏
2009年01月20日
最近在写一些大规模数据存储和查询的小程序,发现很多核心的技术还是来自于我们的数据库技术。然后,真正到做的时候才晓得原来自己对于数据库很多本质的东西的理解并不透彻。我感觉,数据库技术真正核心的是数据的物理存储,外存内存交互,索引这些东西。而关系代数,SQL语言这些都是其次的。诸如现在的 Google的bigTable等东西,其实最本质的技术还是在数据库领域。和真正做数据库的同学聊了一会,觉得自己真的应该好好研究一下现在已经成熟的数据库产品。作为学习数据库的同学都知道PostgreSQL在数据库界的地位了,同时它又是开源的。阅读全文>
发表于 @ 2009年01月20日 13:37:00|评论(loading...)|编辑|举报|收藏
2009年01月18日
学习coding技能数十载,大部分局限于Windows与Java平台。趁现在有点时间,还是从专业点的Linux C/C++开发以及环境学习。其实早在几年前,本人还是接触过Linux平台下的C/C++开发,不过始终没有做过什么正式项目,所以不足挂齿。最近一直在写一个开源的高维空间的近似搜索引擎,于是就拿这个开源项目作为练手的项目了。阅读全文>
发表于 @ 2009年01月18日 15:52:00|评论(loading...)|编辑|举报|收藏
最近开始做毕业论文了。在整理以前做过的诸多论文实验的时候,发现以前用MATLAB写出来的代码是在太混乱了。算法程序,数据生成,以及图片绘画的.m 文件都放在一个目录下。不要说拿给别人看,就连我自己时间久了都搞不清楚哪种图片是哪个MATLAB程序生成的。MATLAB没有Visual C++, Java那正规软件开发环境的工程概念,所以人工管理比较麻烦。一般外人拿到一个论文的实验程序,最简单的,就是拿到一个入口程序,能够自动跑所有的实验程序,并且生成所有的实验图片。这样,他就至少可以从这个入口程序一步一步跟踪进去,搞明白这一堆.m是什么东西。阅读全文>
发表于 @ 2009年01月18日 15:51:00|评论(loading...)|编辑|举报|收藏
最近一直在搞实验室和华西出生缺陷中心合作的项目。本来当初我们计划直接在我们当初开发的OpenMiner基础上改进。但是后来在一次开会上,师兄介绍了开源的BI引擎Pentaho(http://www.pentaho.com/) 之后,发现Pentaho正是我们当初开发OpenMiner的时候想做的一切。记得还是本科毕业设计的时候,我们也帮学校教务处的运行科做一套数据分析的系统。虽然那个时候Weka已经是一个成熟的开源数据挖掘软件,但是Weka始终只是提供了一个软件包,更多的是一个算法包。它还没有成为一个和后台数据库,前台Web联系在一起的Data Analysis & Mining Engine。而OpenMiner的想法,则是提供一套开源的数据分析引擎的框架。但是现在,不得不说,Pentaho已经做了OpenMiner想做的一切,而且做得更好,更全面。Pentaho的诞生比较晚,也就最近1-2年才开始走向开发者的,甚至到现在,其中一些模块都还在开发中。不过 Pentaho的开发者似乎已经很想把该软件商业化,成为一个可以赚钱的商业软件。阅读全文>
发表于 @ 2009年01月18日 15:50:00|评论(loading...)|编辑|举报|收藏
记得投WAIM之前导师就是说过,现在国内针对WAIM的竞争越来越激烈,要突破国内的诸多名牌大学把持的圈子越来越难了。从这次WAIM审稿看得出来,的确如此,以前一篇文章经过3审,现在变成4审了。其实这是一件好事情。要不是4审,我的文章真可能被某人毙了。毕竟,WAIM的程序委员会成员相当大部分都是非内地高校的教授,他们并不参与国内的学术竞争。从ADMA08也看出来,特别是老外,对于文章审稿的细致度远远超过一般国内教授,可谓相当认真负责。虽然在US的同学都说WAIM是比较烂的会议,但是相对于其他国内的以盈利为目的的会议来说,它已经算是国内这个领域相当好的了。 阅读全文>
发表于 @ 2009年01月18日 15:49:00|评论(loading...)|编辑|举报|收藏
2008年09月17日
作为一个PhD学生来说,写文章的技巧自然是自己的看家本领。总体说来,想写出好的文章,必然是要多读,多写。首先谈谈关于论文阅读的选择。从我们CS的
学生来说,最好直接就从最顶级的学术会议,诸如ACM和IEEE的会议论文开始看起。会议论文相对期刊文章来说要简短一些,不至于花太长的时间。一个
master学生刚开始看这些文章,肯定会遇到不懂的地方。不过在现在这个互联网发达的时代,学会用Google没有查不到的东西。当然,这里说的
master学生必然是已经具备了教科书上的基础知识。
所以,读懂一篇顶级会议的文章,对于一个新手有着很大的提高。至少它能不断巩固以前的基础知识。
读懂一篇文章的motivation和solution是最重要的。以前有些师兄建议每读一篇文章,都写读书笔记,那么motivation和
solution应该就是最重要的部分。此外,对于想进入一个研究领域的新手来说,读一下Related
works,看看顶尖的高阅读全文>
发表于 @ 2008年09月17日 10:14:00|评论(loading...)|编辑|举报|收藏
第一次来杭州,天气真是不好,一会下雨,一会出太阳。还好,会议组委会安排的酒店比较舒适,虽说是3星级的酒店,但是感觉比以前住过的5星还舒服。一下飞
机,就直奔机场大巴,再转出租车直达酒店。一路上感觉到杭州的气候和成都真的很像,温度,湿度都很接近。不过杭州似乎比成都繁华一些,毕竟是东部沿海城
市,而且面积还挺大的。不知道到底是杭州还是成都才是中国第一旅游城市,感觉两个城市真的太相象了。阅读全文>
发表于 @ 2008年09月17日 10:13:00|评论(loading...)|编辑|举报|收藏
离去年北上MSRA的实习已经有1年多了。从本科的时候就把MSRA作为自己一直努力奋斗的目标。这个目标终于在07年实现了,而我的07年大半年时光都
在MSRA度过。回想起来,那段时间除了work外没有什么前忧后顾,还有一大帮新朋友,老朋友,过得是挺自在的,舒服的。然而,正是这半年多的实习经历
改变了自己现在的人生目标。我相信我从本科一直到研究生的几年内,工程方面的积累已经足够我去竞争国内最顶尖的企业了。但是,或许我自己从小本身就属于热
衷未知领域的探索,新事物的发明创造的人,MSRA的经历在某种程度上激发了这种内心本质追求的渴望,从而去追求新的目标,更高的目标。
从去年年底回到学校,就一直潜心在做学术研究。半年多时间又过去了,收获还是挺大了,NDBC中了一篇,IEEE的某个Conf.中了一篇,还有一篇刚投
出去。虽然已经中的两篇虽然都不是顶级的会议,但也是对自己的工作的肯定。实际收获还不光是这些看得到的,诸如自己的阅读论文的能力,查找相关文献,做研
究的心态,写作技巧,
matlab运用等各方面的提高。想起来,这段时间也过得阅读全文>
发表于 @ 2008年09月17日 10:12:00|评论(loading...)|编辑|举报|收藏
2008年06月19日
算法是计算机科学领域最重要的基石之一,但却受到了国内一些程序员的冷落。许多学生看到一些公司在招聘时要求的编程语言五花八门,就产生了一种误解,认为学计算机就是学各种编程语言,或者认为,学习最新的语言、技术、标准就是最好的铺路方法。其实,大家被这些公司误导了。编程语言虽然该学,但是学习计算机算法和理论更重要,因为计算机语言和开发平台日新月异,但万变不离其宗的是那些算法和理论,例如数据结构、算法、编译原理、计算机体系结构、关系型数据库原理等等。在“开复学生网”上,有位同学生动地把这些基础课程比拟为“内功”,把新的语言、技术、标准比拟为“外功”。整天赶时髦的人最后只懂得招式,没有功力,是不可能成为高手的。
阅读全文>
发表于 @ 2008年06月19日 13:29:00|评论(loading...)|编辑|举报|收藏
2008年06月06日
After having the taste of GSL, somehow, it is not considered as the MATLAB that used in a large group of people. Furthermore, the graphics function and data visualization of MATLAB are important to many users. Here, I tried to study MATLAB from now on. The list of program as followed is my first MATLAB programs.阅读全文>
发表于 @ 2008年06月06日 12:52:00|评论(loading...)|编辑|举报|收藏
2008年05月22日
熟悉C++做开发的我们,对于matlab, mathematics等软件总是不太习惯。同时,很多research的实验程序需要进行efficiency的对比,所以大部分采用C++是比较合适的。但是诸如矩阵运算,least-squares,随机分布函数等常规数学工具库,matlab实现起来是很直接的。幸好,GNU有一个GSL(GUN Scientific Library)库,里面使用Pure C实现,开放源代码,里面包含了大部分常用数学运算工具。这几天拿过来使用了一下,感觉很不错。这里有Windows版本http://gnuwin32.sourceforge.net/的下载。阅读全文>
发表于 @ 2008年05月22日 09:29:00|评论(loading...)|编辑|举报|收藏
2008年05月16日
这次5.12地震实在太突然,太可怕了。 记得一年半以前,自己还参与四川省地震局一些地震监测软件系统的工作。到目前为止,地震的确是不能预测的,只能发生了过后,迅速检测到。不知道我们的数据挖掘技术,是否能提供一些帮助呢?阅读全文>
发表于 @ 2008年05月16日 15:24:00|评论(loading...)|编辑|举报|收藏
2008年04月06日
没有姚明的火箭比赛,我依然喜欢看,特别是这个赛季的火箭队。这个赛季,火箭队取得了22连胜历史第二佳成绩,更有一种让人敬佩的精神。从斯科拉,兰德里,海耶斯,巴蒂尔,杰克逊这些球员,我们看到一个职业球员为了一个篮板球,地板球,奋不顾身地飞身鱼跃抢夺的那股劲头。他们的拼抢,即使在面对身体更占优势的奥尼尔,高大强壮的内线,位置不占优情况下,明知抢不过,也会依然全力以赴。这不就是我们所倡导的亮剑精神吗?其实,对于他们来说,也就是最基本的职业精神。这里不得不提同样新秀的易建联,拥有更好的身体条件,应该学习一下斯科拉,兰德里这些球员。 阅读全文>
发表于 @ 2008年04月06日 16:29:00|评论(loading...)|编辑|举报|收藏
2008年04月05日
到中国可以不看三大殿,不可不看辜鸿铭。1915年辜鸿铭的《中国人的精神》出版,英文出版。这本书写于上个世纪初的一战期间,正值欧洲文明陷入危机之时,辜鸿铭的目的很明显,为陷于危机的欧洲文明、甚至整个世界文明指出一条出路。书中指出中国人的精神,有一条叫做Simple,不是“简单”而是“淳朴”。 阅读全文>
发表于 @ 2008年04月05日 12:32:00|评论(loading...)|编辑|举报|收藏