- 博客(3)
- 资源 (8)
- 收藏
- 关注
原创 simhash
simhash在我看来,这个也不算简单啊,计算量仍然很大,尤其是我比较讨厌的是feature的庞大,对文本来说。吼吼。google在2002年的文章,Similarity Estimation Techniques from Rounding Algorithms。http://grunt1223.iteye.com/blog/964564http://www.cnbl
2013-08-12 17:08:38 1066
原创 hadoop
hadoop的使用记录,我在测试一部分数据,测试过程中,想ls出来看看,这样难免会修改job的outputformat,我在测一个工作任务,结果呢,我改了reducer的输出格式,也改了job的设置,可还是出错。开始不明白啊,我这个大粗人啊。今天看job的设置,突然看到了,里面有combine的设置,唉,一想combine是在reduce前,同时其输出也是reduce的输入,我明白
2013-08-12 15:56:33 720
原创 开机自动运行
单位主机经常换IP,VPN会时不时连不上的,IP地址也不能每天去人为看看,于是乎同事教一个简单的办法,写个脚本,每次开机时检查一次,然后把IP等信息发到一个服务器自己的帐户下,这样只要VPN能连上,就可以登录单位的主机了。这个简单,我会。ipcheck.sh!#/bin/shifconfig >ipcheck.txtscp ipcheck.txt
2013-08-01 14:40:22 848
KLINEMathematicalThoughtFromAncientToModernTimes3.pdf
2019-07-21
dtw for time series data
2019-01-16
Handbook of Statistics Vol 21
2018-12-26
pattern recognition, third edtion,PART3
2009-04-08
pattern recognition,third edtion,PART2
2009-04-08
pattern recognition third edition,PART1
2009-04-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人