自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(64)
  • 收藏
  • 关注

原创 deepnet: deep learning toolkit in R

前段农闲时间,用R实现了些neural network和deep learning相关的算法,把这些代码做了个package叫deepnet,而且已经上传到CRAN上了。有兴趣的同学可以安装玩玩(R中执行命令:install.packages("deepnet")).package介绍文档:http://cran.r-project.org/web/packages/deepnet/index...

2014-03-20 23:00:25 513

原创 关于spark各种蛋疼的事

spark作为UC Berkeley开源的一个计算框架,现在已经是0.7.0版本了,但还不是特别成熟,离实际生产使用还有些距离。最近花了一周左右时间折腾了下,终于顺利的搭建好了一个6台机器的集群,并能顺利跑些大点数据,现在把过程中各种蛋疼的事记下来,以免忘记了又要折腾很久安装spark依赖scala,并且要自己编译源代码,这个可以参考http://rdc.taobao.com/t...

2013-03-24 17:12:42 181

原创 R学习随笔记录

函数:tapply(X, INDEX, FUN = NULL, ..., simplify = TRUE)对向量x进行分组处理;分组规则由参数INDEX指定,INDEX是个factor类型,长度与向量x一致,指定x成员的类别;FUN为处理函数lm(formula, data, subset, weights, na.action, method = "qr", mo...

2011-11-15 11:03:34 154

原创 R中几种随机分布函数

高斯分布 rnorm(n, mean=0, sd=1)指数分布 rexp(n, rate=1)gama分布 rgamma(n, shape, scale=1)泊松分布 rpois(n, lambda)Weibull分布 rweibull(n, shape, scale=1)Cauchy分布 rcauchy(n, location=0, scale...

2011-11-10 09:44:59 1838

原创 改进HBase的Balance策略

HBase的balance做的实在有点土,其策略就是让各台rs上负载的region数量一致,可能会导致hot region分布不均匀,而 rs的负载不均衡,已经有同事做了些改进,将同一table的region尽量分配到不同rs上,这中策略会有所改善,但仍无法确保 hot region的均匀分布。考虑根据region最近所服务的请求数作为balance的依据,使每台rs上的regio...

2011-07-18 22:28:39 428

原创 在IPad上整理了GBDT的笔记

晚上闲来无聊,趟床上用IPad整理了GBDT原理的笔记,在IPad上输入真是件痛苦的事情。 最近一直在考虑能否用MapReduce实现GBDT算法,大体思路有了,但还不够清晰。 ...

2011-04-03 13:59:07 101

原创 真的能“以史为鉴”吗

很多人问,为什么看历史,很多人回答,以史为鉴。 现在我来告诉你,以史为鉴,是不可能的。因为我发现,其实历史没有变化,技术变了,衣服变了,饮食变了,这都是外壳,里面什么都没变化,还是几千年前那一套,转来转去,该犯的错误还是要犯,该杀的人还是要杀,岳飞会死,袁崇焕会死,再过一千年,还是会死。 所有发生的,是因为它有发生的理由,能超越历史的人,才叫以史为鉴,然而我们终...

2010-12-31 12:38:42 232

超可爱的小朋友

一日,乘公交游西湖。车上有两个邻座的小朋友,一个中班,一个小班。 中班小朋友问小班小朋友:2+2=?。 小班小朋友掰指头数了数:4。 中班小朋友又问:4+4=? 小班小朋友又掰指头数了数:8。 中班小朋友又问:5+5=? 小班小朋友费了老大劲,数完两只手的指头:10。 中班小朋友仍不甘心:10+10=? 小班小朋友一脸茫然,低头抠手指...

2010-10-13 00:24:36 93

原创 转贴一个内部贴子--海量存储计算

 技术领域—海量存储计算 PB时代的来临Petabyte,2的50次方个字节。这个对很多人还是很陌生的计量单位,已经变得越来越普遍和触手可及。2004年8月,GOOGLE日常任务输入的数据已经达到了3PB ;2005年Mark Hurd从Teradata来到HP出任CEO,开始建设基于Neo...

2010-10-12 11:31:02 146

原创 HBase源代码-7-数据存储

7.存储模型        regionserver负责region内数据的存储及处理客户端的读写请求:        写请求:当regionserver接受到写请求,先写入一个WAL(write-ahead log) HLog中(同一regionserver的所有log写入同一文件中);然后再写入缓存HStore中;        读请求:先检查HStore中是否存在被请求数据,不存...

2010-10-10 16:53:01 152

原创 HBase源代码阅读-6-数据逻辑模型HTableDescriptor

6.数据逻辑模型HTableDescriptor            HBase中表结构由HTableDescriptor描述(包括HColumnDescriptor),对表的新增\修改\删除操作在接口HMasterInterface中定义,而该接口由HMaster实现            (1)HTableDescriptor包含:                表名,byte[...

2010-09-18 11:11:04 742

原创 HBase源码阅读-5-HMaster对HRegion的管理

5.HMaster对HRegion的管理:master将region的分派,状态管理等工作委托给RegionManager        (1)RegionManager成员变量:rootRegionLocation,root region所在regionserver地址;                            rootScannerThread和MetaScanner,r...

2010-09-15 19:20:49 116

HBase源码阅读-4-HMaster与HRegionServer的RPC

4.HMaster与HRegionServer的RPC            启动master时创建一个Server的实例,利用反射机制提供HMaster的方法调用服务;Server继承自抽象类HBaseServer;            HBaseServer通过异步io(nio包)提供了非阻塞的网络连接            4.1 RPC Server的创建及启动过程   ...

2010-09-06 11:25:57 176

HBase源码阅读-3-HRegionServer

3.HRegionServer:管理regions,并向HMaster报告自己状态                3.1 regionserver启动过程            (1)读取一些配置:机器名,端口,客户端重试次数,与master交互间隔,rpc超时            (2)创建Worker线程处理来自master的请求(????)            (3)创建...

2010-09-02 20:33:26 82

HBase源码阅读-2-HMaster

2.HMaster:实现master的功能A.负责分配region到regionserver,检测新增或失败的regionserver,与regionserver交互,regionserver间的负载均衡等;B.处理shcema的变更;C.实现ZooKeeper的Watcher接口,与zookeeper集群交互        2.1 master启动过程初始化,构造HMaster实...

2010-09-02 20:32:28 112

HBase源码阅读-1-脚本

1.脚本    start-hbase.sh,hbase-daemon.sh,hbase-daemons.sh,zookeepers.sh,regionservers.sh,hbase,hbase-config.sh1.1 hbase    hbase命令行入口,最终控制master,regionserver,zookeeper等启动或关闭1.1.1 hbase shell执行jrub...

2010-09-02 20:30:56 123

HBase源代码阅读

最近比较空闲,好好研究下了下HBase的源码(0.89.20100621),其中一部分整理了下,写了些notes,贴出来Share一 下。后面计划期望能有空整理成一个完整的系列出来: 1.脚本2.HMaster3.HRegionServer4.HMaster与HRegionServer的RPC5.HMaster对HRegion的管理...

2010-09-02 20:28:20 76

利用混合马尔可夫模型对用户搜索行为进行聚类

最近一直做用户使用搜索引擎行为模式聚类的工作,开始尝试用K-means,效果非常不好,用户Session中的动作之间有较强 的关联,这种基于距离的聚类无法体现这种关系。继而,转向基于模型的聚类方法,而马尔可夫模型及隐马模型是对这种时间 序列建模的很好工具,因此尝试了下混合马尔可夫模型:认为每一个Session序列是有一个马尔可夫模型产生的,而模型的选 择又遵循一定的概率分布...

2010-07-19 15:44:52 241

mahout之3-mean shift聚类

 3.Mean Shift聚类 Mean Shift聚类原理(1).欧式空间X中,有一个有限点的集合S。K是一个flat核,即 简单说来,K标记x是否在以原点为圆心,半径为lamda的球体内。 (2).在x处的样本均值表示为 即在以...

2010-07-05 09:11:01 137

原创 mahout之2-Kmeans聚类

2.Kmeans聚类Kmeans算法思想也比较简单:可见http://baike.baidu.com/view/3447609.htm首先从n个数据对象选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重...

2010-07-02 08:53:45 108

mahout之1-Canopy聚类

1.Canopy聚类Canopy聚类是一种简单、快速、但不太准确的聚类方法。该算法需一种快速的近似距离度量方法和两个距离阈值T1>T2。while(没有标记的数据点){    选择一个没有强标记的数据点p    把p看作一个新Canopy c的中心    离p距离<T1的所有点都认为在c中,给这些点做上弱标记    离p距离<T2的所有点都认为在c...

2010-07-01 10:31:19 87

mrunit扩展

MRUnit是一个对MapReduce开发做单元测试很不错的工具,但令人不太爽的,MapReduce应用基本都是处理大量数据的应 用,而MRUnit居然不支持从文件中load测试的输入和输出数据,要在代码中构造一坨一坨数据,实在令人不快。 昨天花了大半天的时间,扩展了一下mrunit的MapReduceDriver,可以方便的将测试输入和输出放在同一文件中,基本满足 了一般...

2010-06-03 13:51:49 81

原创 做还是不做,是个问题

来源:http://www.pinggu.org/bbs/thread-797820-1-1.html 妹妹的问题如下: 我GG要和我做那个,我很犹豫,他说现在做过的太多了。我相信他的话,但作为女生: 方 面就得想多点,“以后要是他不爱我怎么办?”,“如果再找别的男生,会不会因..: 个 而有什么想法?”但我很爱他,不想让他失望,我该...

2010-05-26 12:33:39 100

原创 两本关于Hadoop的书

昨天刚从同事那拿到两本关于hadoop的书。 一本是hadoop的committer Tom White的大作《hadoop_The_definitive_guide》,大致看了下前言和目录,非常 详细的介绍了hadoop的各个方面。 另一本《Data-Intensive Text Processing with MapReduce》貌似还没有正式出版,介绍了如何用MapR...

2010-05-26 08:55:44 182

使用MapReduce实现图的一些算法[翻译]

 使用MapReduce实现图的一些算法 随着处理的图规模增长(比如复杂网络),以致图的节点和边信息无法完全载入内存,这给执行在图上的算法带了很大挑战。而云计算是一种很好的解决方案。《Graph Twiddling in a MapReduce World》介绍了将一些图算法分解成一系列MapReduceJob的方案 (1...

2010-05-07 18:22:32 325

Hadoop Online

MapReduce框架适合用来处理大数据量计算和分析工作,但实际应用中许多任务并不能表示成单个MapReduce Job。比如K均值聚类,SVM等迭代式的算法,仅执行一次Job是不可能完成计算。而MapReduce框架,包括Hadoop最初设计成解决批处理任务的,用它来实现这种迭代式的算法时,只能在每次迭代后,由reducer将临时结果写入HDFS的文件;在下次迭代...

2010-05-05 10:43:45 84

脱机手写体汉字识别系统

最近有幸接触到模式识别及文字识别这一领域,阅读了几篇论文。 对脱机手写体汉字识别的系统整体架构及思路整理成MindMap图,感觉思路清晰多了:) ...

2009-03-27 22:09:48 909

幽默的食堂大婶

今天中午因为点事,去食堂晚了点,去那里基本上只剩了点残羹冷炙了,我拿了个碗左看右看,晃来晃去,实在不晓得吃点啥子好,忍不住叹了声气,结果被一位耳尖的打饭的大婶听到了,“小伙子吃饭的时候要高兴点,不要唉声叹气的哦,下次记得来早点啊”,逗得哥们真乐了。就冲这服务,来三两饭,剩菜包了!...

2008-12-06 21:14:03 79

关系数据库测试驱动开发

最近要交个作业,翻译了篇Scott W. Ambler的论文,贴出来给大家拍拍砖 附上原文------------------------------------------------------------------------------------关系数据库测试驱动开发在测试先行开发(TFD)中,开发人员通过迭代的方式对系统进行详细设计和实现,并对其进行测试...

2008-12-04 10:40:35 118

原创 调用指令(Call)

调用指令分为近(near)调用和远(far)调用。 如果被调用子程序的属性是近的,那么,CALL指令将产生一个近调用,它把该指令之后地址的偏移量(用一个字来表示的)压栈,把被调用子程序入口地址的偏移量送给指令指针寄存器IP即可实现执行程序的转移。[color=red]注意:因为将下一条指令地址入栈了,所以根据ebp访问第一参数时地址要增加四个字节[/color]如果被调用子程...

2008-10-11 16:44:13 2722

原创 收集的Intel汇编

MOV指令有以下几条具体规定,其中有些规定对其它指令也同样有效。   1)、两个操作数的数据类型要相同,要同为8位、16位或32位;如:MOV     BL,   AX等是不正确的;      2)、两个操作数不能同时为段寄存器,如:MOV     ES,   DS等;      3)、代码段寄存器CS不能为目的操作数,但可作为源操作数,如:指令MOV     CS,   AX等不...

2008-08-28 14:02:49 65

读E文著作的困惑

不知道大家读E文书有没有这种困惑:读的时候觉得很爽,都能看懂,很简单,可看完后合上书基本就记不住太多了,只能记得个大概的意思,再过段时间就只剩点模糊的印象,感觉吸收的东西比较有限。后来慢慢的,看完一段后就写点批注什么的,效果也不是很好。有时候一本书反复读好几遍,但是感觉花费的时间和获得知识相比,效率还是比较低。偶在大学自认为E文还是不错滴,6级还得优秀了,这几年专业的E文书...

2008-08-22 12:29:46 90

原创 小学时写的迎奥运作文

昨天突然想起小学5,6年级的时候,大概93,94左右的样子,BJ还在申办2K年奥运会的时候,学校搞了次作文比赛,我那时还挺能写的,也投稿了。记得当时我居然都晓得有萨马兰奇这么个人了,而且好像就只有我的作文里有提到他哦。还记得那时看了同桌的哥们写得想像的奥运会开幕的情景,现在都还记得一点,真佩服那哥们的想像力 :idea: :idea: ...

2008-08-13 09:40:40 58

原创 毕业生

Hello darkness my old friend I've come to talk with you again Because a vision softly creeping Left its seeds while I was sleeping And the vision that was planted In my brain still remains ...

2008-08-03 00:05:27 59

大学时候收到信

今天闲着无聊在家收拾东西,发现上大学时,高中同学写给我的些信。其中有两封是某男同学大一的时候写给我的。此人真是爱学习啊,居然每封信最后都要给我留个“每封一题”。有两个题目是这样:其中一个是一个数学题,貌似多项式因式分解,X的n次方—a的n次方/(X—a)=?,另一个是哲学题目:这个世界上有没有绝对的真理? :idea: :idea: :idea: :idea: :idea: :idea:...

2008-07-06 20:43:31 192

启动RPC

前几天刚和prolj兄在google code上开了个项目,取了个很自恋的名字RPC(Run and Prolj's Compiler,不是Remote Procedure Call)。我们打算完成一个支持C99标准的Compiler,说实话感觉心里挺没底的,C99标准文档四五百页的E文,看得有点晕,一些文法和语义的细节看起来挺复杂的,语法树啊符号表啊什么的具体实现也还没想清楚。...

2008-07-01 09:46:43 290

Linux C中也有“ThreadLocal”

现在在看Linux开发的书,接触到了多线程开发这一块,惊奇的发现用C写多线程程序,也有线程内部变量的概念呢,甚至调用的接口和Java中的ThreadLocal非常像。 1. extern int pthread_key_create ((pthread_key_t *__key, void (*__destr_function) (void *))); 先使用该方法创建一...

2008-05-29 11:11:03 652

词法分析和语法分析并发的想法

现在看了几个简单的Compiler的源码,发现语法分析的Function都是调用词法分析的过程,一个一个的获得Token,然后构建语法树。今天早上起来上WC,突然脑子里面冒出来一个想法:这不是个典型的生产者-消费者问题么?若是在多线程环境下,起两个线程分别跑词法分析和语法分析的Function,再建个缓冲的Buffer,这样前端分析的效率会不会有所提升呢?欢迎各位拍砖 :D ...

2008-05-17 10:32:03 164

终于搞定VIM C开发环境

花了两天时间终于把VIM写C的环境搞起来了,功能之强大,绝不逊色于任何一个IDE。终于不用再自己在Vi中跳来跳去。小show一下:[img]http://www.iteye.com/upload/picture/pic/14295/4699bf3f-c30c-349f-b3f6-01641b8cb7d9.png?1210668554[/img]非常感谢CSDN上Easwy的文章:htt...

2008-05-13 16:54:25 207

新工作,新环境

新工作做了大半个月了,感想颇多。本来觉得之前的公司管理就不咋的,真应了那句话:没有最烂,只有更烂。总之感觉对现在的工作无所适从,跟Boss和下面的人沟通起来都相当困难。我就纳闷:都是做IT的人,咋思想差距就这么大呢。管理的方式,做事情的方式,沟通方式,都难以适应。哎,不知道怎么回事,最近抱怨总是很多。也许这几个月发生的事情太多了,任何一件事情都会让人不爽很久...

2008-05-08 13:18:03 149

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除