- 博客(18)
- 资源 (8)
- 收藏
- 关注
原创 secondary sort
class FirstPartitioner extends Partitioner { @Override public int getPartition(Text key, MapWritable value, int numPartitions) { String []allKey = key.toString().split("\t"); i
2012-03-30 14:13:54 679
原创 最近有点小烦
因为工作以来一直没有怎么接触过模型或者算法的东西,整天做的就是零零散散的工程,一直以来我都忍了。可最近这个季度,回头看来,去年年底计划的工作都没做,全改变了,又回到了工程的东西了。所以我挺烦的,说实话,我不care工程上代码写多好,也不care工程上什么新功能。我只care的是效果和算法,我对这感兴趣。再者,我不想去做个coder,我想这不是我当初找工作的出发点。我对coding不care,所以我
2012-03-30 08:03:53 608
原创 主题抽取和推荐的联系和差别
我们经常会看到,很多文章在对数据做聚类或者分类,也就是说从数据中抽取出主题或者兴趣,这个是一个概括的过程。而推荐则是一个预测的过程,即我已经知道你对A感兴趣,虽然你目前没有关注过B,C,D,但是基于关联关系,我觉得A和B关系很密切,和C关系较密切,和D关系一般密切,这完成了预测。而后是推荐过程,即推荐前一个或者前N个关系密切的兴趣给你。也就是说,推荐应该是首先完成了主题提取,或者是
2012-03-28 22:48:17 701
原创 matrix spectral, matrix factorization, lda, pca, spectral clustering
最近打算把这几个好好看看。最近一直做工程做的比较烦,热情也减低了,所以其余时间多看文章,总结一下,准备实现一个模型看看效果。
2012-03-28 18:06:34 681
原创 Job Setup: Failed
Job Setup: Failedtmd,我郁闷死了。我又把这个搞错了。上次是因为写了一个路径,该路径是hadoop生成的,我不记得了。我的用户名写不了。今天又是这样的。事不过三啊。
2012-03-23 15:28:19 911
原创 configuration
唉,我又犯了低级错误。把configuration用new configuration()来处理了。这样的话,test case中传入configuration时就总是传不进去啊。并且通过job传进去的configuration常数也不能工作。
2012-03-23 13:42:45 506
转载 vimtutor
^ k 提示︰ h 的鍵位于左邊,每次按下就會向左移動。 l 的鍵位于右邊,每次按下就會向右移動。 j j 鍵看起來很象一支尖端方向朝下的箭頭。 v哈哈,看到这个地方觉得老好玩了。
2012-03-22 08:04:19 370
转载 vim常用命令
来自豆瓣网友:http://9.douban.com/site/entry/125947350/插入操作“i” — 从光标所在位置前开始“I” –光标移到当前行的行首,然后在其前插入文本“a”– 光标当前所在位置之后追加新文本“A” –命令将把光标挪到所在行的行尾“o” — 在当前行的下面插入新行“O” — 在当前行的上面插入新行
2012-03-22 07:58:11 468
转载 vim使用
原文地址: http://linuxtoy.org/archives/efficient-editing-with-vim.html虽然从很久前就开始用 VIM 了,但一直都是半调吊子,翻来覆去只用自己会的命令。最近为了提高书写代码的效率,还有 coding 时候的乐趣,又重新钻研了一下 VIM,发现了一篇很好的 VIM 入门的文章,原文是英文版的,我觉得非常适合 VIM 使用入门,所以翻
2012-03-22 07:56:56 377
原创 Integer.valueof Integer.parseOf
从java api上可以看到。两者的区别。static intparseInt(String s, int radix) Parses the string argument as a signed integer in the radix specified by the second argument.
2012-03-21 11:41:21 1344
原创 服务器设置
其实,我没有配置过服务器,是别人把服务器搭好的,我自己去用的。所以,只说怎么用吧。首先要设置网络socket,连接到服务器端口上。然后按照规则给服务器传数据并接收数据。我是架设了两个公司用的模型服务,感觉用起来还是很好的。只是,目前是单机版的,所以下一步是搭建多线程的吧。看了看孙鑫讲的java多线程,感觉还不算太难。
2012-03-20 15:04:10 468
原创 编程习惯for while
http://stackoverflow.com/questions/3875114/why-use-a-for-loop-instead-of-a-while-loop尽量用for但是如果你无法确定是有多少循环时,用while是很好的选择啊。
2012-03-20 13:50:52 451
原创 改文件名称
在文件test中有文件,名字是以tck-r-00000等这样的字段结束的,是mapreduce的job生成的。我现在要把文件的名字中间添加上时间标签。baseDir=/opt/test/ls $baseDir | while read NAMEdo tmp="${NAME:3:11}" tmp2="${NAME:0:3}" TIME=`date '+%Y%m%d-
2012-03-13 16:22:17 565
原创 hfile到hbase
去年年底留下的一个问题,我当时查找错误时,就觉得这个问题肯定是我使用的方法不对,绝对不是hbase的bug。可当时大家都要保证稳定过年,所以也就没有找人帮我来查找这个问题。具体是我将大文件通过写入hfile,然后再load到hbase中。但是我发现hbase中几乎没什么key value了。count得到的数目是对的,但是通过key找value时是找不到的。而我反查hfile也没发现有
2012-03-10 16:14:51 1122
原创 bug
我今天一天开了两个issue,都是bug类型的。我郁闷。一个bug是原来的遗留问题,不能算我的bug。不过我在接项目时,没有去仔细想,这是我的责任。另外一个bug是当时赶的太紧了。过滤时漏掉了一个参数。哎。所以说,我最近就在不断的修复bug了。
2012-03-06 16:26:28 571
原创 cygwin的部署
因为看到同事在windows下用cygwin,我决定无论如何要安装上。基本上靠google完成了部署和安装,然后在部署ant时,又忘记把path添加到bin级别了。于是乎,又问了一次同事。吼吼,总算搞定了。用着感觉比xshell用着舒服多了。很有ubuntu的感觉。
2012-03-06 11:21:57 596
原创 一个bug至今没有fixed
程序中,不知道是什么地方存在bug。是这样的,我在生产环境下运行时,总是会出现丢数据的问题。可如果我跑了一遍后,再运行一遍就没问题。这是个奇怪的问题吧。曾经试验过,在生产环境下,另外运行一次,也不丢数据,用我自己的用户名运行一次也不丢数据。但是如果在生产环境下第一次运行就会发生丢数据的现象。要是说,生产环境的问题,可我就在生产环境下再次运行时就换个时间和输出路径就没事了。用我自己的
2012-03-05 10:36:49 703 1
原创 svn propset
svn propset reviewboard:url http://reviews.corp.mediav.com . 出现信息: 设置属性 “reviewboard:url” 于 “.”出现这个后,我很奇怪,还以为出错了呢。吼吼,问了两个同事,牛人说这不是错误信息。这只是结果提示。我晕。我记得以前出现过这个的。果然如此啊,我一看svn propget revi
2012-03-01 14:04:39 3882 3
KLINEMathematicalThoughtFromAncientToModernTimes3.pdf
2019-07-21
dtw for time series data
2019-01-16
Handbook of Statistics Vol 21
2018-12-26
pattern recognition, third edtion,PART3
2009-04-08
pattern recognition,third edtion,PART2
2009-04-08
pattern recognition third edition,PART1
2009-04-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人