自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 资源 (8)
  • 收藏
  • 关注

原创 是我太娇气了

每天下午都很累,大概是最近工作很忙,一天到晚没个闲空。所以,每天下午都很累,这几天估计旁边的同事都已经无语了,我每天下午都会不自觉地说,好累啊。也不知道别人怀孕时都是怎么工作的,真心觉得这钱不好挣。是我太娇气了吗?

2012-09-28 08:06:20 903

原创 recommender system

http://www.wentrue.net/blog/?p=1181http://tech.hulu.com/blog/2011/09/19/recommendation-system/http://glinden.blogspot.hk/2011/02/youtube-uses-amazons-recommendation.html

2012-09-26 18:17:06 803

原创 cp

hadoop cp 文件的使用cp dir1/  dir2/ 这个时候,如果已经存在dir2了,则会生成dir2/dir1这个时候如果dir2不存在,则会生成dir2/,同时把dir1下的文件都拷贝过去。cp dir1/* dir2/这种方式将dir1下的所有文件拷贝到dir2下,但是如果dir2不存在就出错,这个时候需要提前判断一下,如果不存在dir,就要mkdir一

2012-09-26 17:39:09 553

原创 lzo

hadoop fs -cat bitauto/data/cookie_topic/20120924/part-r-00000.lzo| lzop -cd| less

2012-09-26 17:21:29 468

原创 echo printf,read

unix echohttp://unix-cd.com/vc/www/39/2007-06/2409.htmlecho显示转义字符,要加-e.昨天想自动生成一个文本文件,生成后,总是空格,不是\t,后来同事让我用printf,总是可以了。但是我感觉echo用的不对,今天才知道是我没有添加-eprintf可以看shell脚本编程学习指南第七章,写的很详细。以后要习惯用

2012-09-26 15:36:46 531

原创 产检假

自从怀孕后,感觉压力很大,因为前几个月老请假,工作进度跟不上,又加上不能老加班了,所以整体没有以前的工作完成量大了。前半年的奖金是没有一分,后半年我估计又悬了,因为正好年底我要休产假。今天前台MM又跟我说,产检假是没假期的。吓我一跳,当时就烦躁了,法律规定是有产检假的啊,何况我每次只要产检很早完成我都是回来上班的。我告诉她,我当时问人事了,说是有产检假的。哎,以前怀孕前,很

2012-09-25 11:45:16 1478 1

原创 Bayes classifier and LDA, PLSA

最近因为想写几个简单的分类器,其实原来也没写过什么分类器,尤其是supervised.最近在看Bayes classifier,是去产检时等叫号时看的,看过之后我明白了,之前有位指导我们的同事说的,说lda, plsa其实就是bayes分类器。bayes classifier是一种generative model,按照feature集合生成文本。尤其是multinomial nai

2012-09-22 21:59:39 1498 1

原创 tar

最近要传输数据,因为是两个cluster上传输,速度很慢。所以要压缩,用了tar的压缩命令。tar -cvzf  file.tar.gz -C /dir  file这个是说要把dir下的file文件压缩成file.tar.gz  文件。可以--help一下,看到-C是说先切换到dir下面。但是昨天我开始用的是 tar -cvzf  file.tar.gz -C /d

2012-09-22 12:08:55 1651

原创 pig udf实现

pig的UDF实现了用简单的pig命令难以实现的功能,一般是直接对tuple操作的。而且这个有个好处是用户可以自己定义的。自己写udf,要注意几点:1. udf传入的参数是tuple。2. udf操作时,有点类似于对group后的结果进行操作,我们可以对group内的每一个元素进行操作,但是你要记住,每一个元素是什么,这样你才能get(0),get(1)等等。3

2012-09-18 14:25:51 2138

原创 理想和现实

理想:1.  将来工作了坚决不吃食堂,太没营养,要每天从家里做好饭带来。2. 坚决不挤地铁,即使贵也要住近点。3. 怀孕时坚决不吃食堂,为了宝宝要怎么健康怎么吃。为了宝宝,如果单位压力太大,坚决辞职不干。4. 不加班,不能天天二十四小时卖给单位。5. 不能那么势利,要将来和老公一点点挣。只要有感情,房子、车子都可以慢慢挣。现实:1. 要是单位有食堂多好啊,从家里

2012-09-15 19:32:06 1121 1

原创 mkdir -p

mkdir -p在创建目录时,我们通常会先检查一下是否存在,如果不存在,就创建,这个时候通常用mkdir -p进行,但是-p是干什么用的呢。mkdir --help一下吧。也就说,如果上级目录不存在,则没关系一并创建直到创建到自己想要的目录为止。用法:mkdir [选项] 目录...若目录不是已经存在则创建目录。长选项必须用的参数在使用短选项时也

2012-09-14 15:28:10 34675

原创 怀孕傻三年?

连着两天烧糊了锅,我都不敢再相信自己了……怀孕后,我发现自己脑子经常是空荡荡的,以前都记得的东西,现在也不知道了。怀孕傻三年,难道是真的啊?我在想到底是因为宝宝把麻麻的营养吸收走了,还是因为麻麻的注意力转移了造成这种傻相啊?孕妇真是各种情绪啊,怀孕后,老和老公吵架,其实原因只有一个,就是觉得自己和宝宝在老公心中的地位太低,即使现在怀孕,也比不上他家人。以前能忍受,可现在忍受和接

2012-09-12 14:57:41 1129

原创 flatten

今天通过不断的尝试,终于知道这个flatten的用法了。其实吧,有时候关键是要test,才能充分理解解说。不过,同事给说的有点问题,误导了我。整的我一直没明白怎么回事。这是官方的解释:The FLATTEN operator looks like a UDF syntactically, but it is actually an operator that changes the

2012-09-11 17:59:36 8000 1

原创 pig拉数据

以前公司有同事讲过pig的各种使用经验,但是我觉得吧,工程的东西很多都是熟能生巧的过程,长时间不用就又忘记了。这几天再从新使用pig,除了看thrift文件了解各个数据的结构之外,如果想看内部的有些信息,尤其是有些数据是会转换的,那就加载数据后,用describe,Returns the schema of a relation.看到pig的官方解释,就知道了,这个describe能够

2012-09-11 14:24:37 1173

原创 java读文档

java读文档的函数有几个,我通常直接用InputStreamReader和buffereader,这个方式是从开头读到最后,readline一行行读。但是,我昨天想实现反复读一个文档的功能,即读完一遍后再读一遍。我发现InputStreamReader无法让我再从头开始读,问了同事,他告诉我从新打开。吼吼,我知道这个方式,我就是不想用这种方式所以才问的。后来同事告诉我,可以用RandomAcce

2012-09-10 08:39:24 961 1

原创 标准程序结果

呵呵,今天被鄙视,同事说了,所有标准程序,运行成功就返回0,不成功返回非0.原来这样啊,所以说,java代码我们总是要求这样返回值,而脚本我知道是这个样的,pig也是这样的,如果job执行成功则返回0,否则非0.

2012-09-06 17:25:44 627

原创 intellij创建快捷方式到桌面

http://forum.ubuntu.org.cn/viewtopic.php?f=50&t=124425&sid=1e7bffb676eeae9efdc47ea64de49f31就是在桌面上右键几下就行了。我开始还看了一段youtubu视频,后来才发现这个方式真是好用。

2012-09-06 12:17:41 7319

转载 为什么读博

为什么读博,这里博主的翻译,感觉还不错http://blog.csdn.net/chl033/article/details/5496708呵呵,读书时写采样程序,记得当时还专门去看过gibbs sampling,可我发现我还是没理解根本原理,过了一两年就忘记了。不知道是真老了,还是当时真没理解原理,真是头大啊,很是苦恼。

2012-09-06 08:10:02 1926

原创 选择的路错了

其实,因为工作已经很多个晚上失眠了,以前失眠还没关系,可怀孕后失眠就会非常痛苦。可总是会很烦恼,尤其是到了一个节点时。怎么说呢,只能说我选错了路。我现在只想把自己包起来,躲在乌龟壳里,一个人看点书什么的,才能少点烦恼。工作那么久了,一直在做工程的东西,其实吧,原来读书期间也没做过多少项目,但是算法是自己用C++实现的,那个时候为了实现算法,看了好几遍的c++ primer。

2012-09-05 07:29:46 2729 2

转载 推荐系统资料

转来一篇,本来想只转载地址的,可怕内容看起来不方便,作者也没说不可以转过来,于是把内容也转帖过来。来自:http://blog.csdn.net/lzt1983/article/details/7914536,有兴趣的可以到原博客去看看,真是辛苦博主了。最近在做一个推荐的任务,头绪繁多,回头看看同行的工作,希望能有些帮助。零零碎碎看过好多资料,有些已经忘记了,会慢慢补全

2012-09-04 08:47:25 1007

原创 李开复老师的讲演

http://v.youku.com/v_show/id_XMzA1NzQyNzgw.html感觉还是很不错啊……虽然我已经过了大学校园生活,真是觉得如果大学读书前能体会到这些或许更好。

2012-09-03 21:08:39 6082 1

原创 lda symmetric lda aprior

Rethinking LDA: Why Priors Matter该文章测试,lda中,如果先验参数alpha是非对称的,效果会比symmetric更好。记得之前看过一篇文章,具体文章名称实在是想不起来了,好像记得那个时候还在和讯博客记录了一下,现在是死活找不到了,真是丢三落四啊。言归正传,记得那篇文章中也提到了,对称lda的效果和PLSA还是LSA等价的?

2012-09-03 15:43:23 903

原创 文本分类器

以前处理图像、视频,已经觉得维度够高,而且特征够麻烦的了。可真接触到文本时,才发现文本的更麻烦,大概是我这个人懒。因为想对已经分好词的数据做一下试验,想找一种更好的分类算法,可一想用字典中所有词作为特征岂不是很浪费维度,于是查了查,看来文本的分类还真有很多猫腻。实现一下特征提取的CHI吧,正好结合前几天写好的tfidf用用。

2012-09-03 15:23:33 1772

原创 情绪波动

我绝对是一个情绪波动很大的人,在单位都是这样,丝毫不会掩饰自己,说实话,真为自己担心,年龄是白长了,一点都不成熟。其实,有情绪是没有用的,而且还增加同事之间的不和谐,大家共事一场,大概没有人会真的把你当朋友,所以你的情绪更不该有。该改改了,人总是要长大的。

2012-09-03 13:21:24 567

原创 libsvm

最近想看看libsvm工具,如果英文资料不想看,可以看看这里,真是不错。http://blog.csdn.net/carson2005/article/details/6539192http://blog.csdn.net/marising/article/details/5844063另外,svm的分类是无法实现分布式的,所以数据量大时就难以解决了。

2012-09-03 08:21:34 581

KLINEMathematicalThoughtFromAncientToModernTimes3.pdf

Mathematical Thought from Ancient to Modern Times vol3

2019-07-21

my sql cookbook

my sql cookbook 2ed edition in chinese. please use it for study.

2019-01-16

dtw for time series data

dtw paper for time series data in big data. if you think it is useful please index it.

2019-01-16

Handbook of Statistics Vol 21

Handbook of Statistics Vol 21 - Stochastic Processes - Modeling and Simulation (Elsevier, 2003)

2018-12-26

pattern recognition, third edtion,PART3

Theodoridis S., Koutroumbas K. Pattern Recognition.3rd.ed.(AP, 2006)(840s) english edition

2009-04-08

pattern recognition,third edtion,PART2

Theodoridis S., Koutroumbas K. Pattern Recognition.3rd.ed.(AP, 2006)(840s) english edtion

2009-04-08

pattern recognition third edition,PART1

Theodoridis S., Koutroumbas K. Pattern Recognition.3rd.ed.(AP, 2006)(840s)

2009-04-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除