自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 some thinking about management

我可以批评、指责我的组员,直接指出其做的不好不对的地方,但我不会轻易允许组外的人这么说,如果组外的人这么说,我也不会轻易不了了之。如果我还想继续用他,继续给他机会,我会直接指出其做的不好不对的地方。如果不我想用他了,我会礼貌地客气地说话,然后让他走。

2017-03-11 14:37:48 422

原创 Parameter server anatomy (1)

anatomy的目的,是为了把Parameter server从一个framework,改造为一个platform。

2016-10-25 17:00:33 494

原创 HDFS too many open files,fd limit的问题(二)

问题本身是明确的:由于操作HDFS的进程,打开了过多的本地文件,导致fd limit达到上限,进而其他需要打开文件(广义的文件的概念)的进程报错。需要注意的是,这个错误影响到了多个进程,并且这些进程间好像没有继承关系(parent-child)?所以,从HDFS进程的错误日志,无法确定是进程层面的limit到了,还是系统层面的limit到了。解决这个问题,必须同时确保三个层

2016-09-05 20:06:29 2218

原创 LogAggregator

http://mp.weixin.qq.com/s?__biz=MzIzMzEzODYwOA==&mid=2665284319&idx=1&sn=dd380fdb78846e7ce3e798918e0abe2a&scene=2&srcid=0505MNoqQQxi9c0LWnbrRYzH&from=timeline&isappinstalled=0#wechat_redirect

2016-06-05 10:41:00 398

原创 localtime/localtime_r lock issue

看了localtime/localtim_r的代码,里面确实有lock的操作,但有新发现。在glibc的代码目录,time/localtime.c中,是localtime/localtime_r的实现:struct tm _tmbuf;/* Return the `struct tm' representation of *T in local time,using

2016-01-30 19:13:23 2048

原创 关于机房交换机故障导致HDFS NameNode挂掉的问题(续)

过程是痛苦的,后面的结论是令人不安的。上一篇的分析,确定了至少两个个结论:一、如果总体上active NN写JNs出问题,那么active NN就主动调用terminate,进程退出;二、JNs的相关的一个配置项:dfs.namenode.shared.edits.dir,这个配置项中出现的JN的信息,对NN来说一定是“required”的。这篇后续的分析,解释“总

2015-11-17 14:51:47 3383

原创 关于机房交换机故障导致HDFS NameNode挂掉的问题

HDFS HA中,一个active NN,一个standby NN,三个JNs,共涉及三台机器146.66/67/68。其中66上有一个JN,67上一个JN和一个active NN,68上一个JN和一个standby NN。67和68在一个机房,66在不同的机房。发生故障的机房交换机,导致67和68都无法与66通信。所以,67上的active NN只能写入67和68上的JNs,68上的

2015-11-13 16:57:40 3272

原创 一次Hadoop集群宕机事故总结

10月27日下午,机房中心交换机坏掉,导致HDFS集群和MR(YARN)集群宕掉。当时的日志现在已查不到,只能推断整个集群宕掉的原因。HDFS和YARN的集群,都是master/slave模式,其中处于master角色的组件有:NameNode,ResourceManager。某种角度,只要master没有挂掉,可以认为集群没有挂掉。同时,我们的HDFS集群和YARN集群都配置

2015-11-12 17:56:39 5486 2

原创 HDFS HA中name nodes访问顺序的问题

配置HDFS HA时,需要指明两个name nodes,一个active,一个作为hot standby,当active NN出现问题时,可以及时手动或自动切换到standby NN(此时原来的standby NN转换为新的active NN),使HDFS cluster保持正常工作。涉及的配置,以146.67这个name node为例。hdfs-site.xml:

2015-11-12 12:57:04 3303

原创 java loads native libraries

用jni封装so后,在java程序中使用时,System.load()不知道ab

2014-07-25 14:51:40 775

原创 GNU hsearch (I)

用JNI封装使用了STL容器(map和vector)的C++代码,

2014-07-20 21:17:54 1054

原创 trivial C++ issues (1)

What happens in traversal by iterators?

2014-06-18 23:43:26 472

原创 C++资源释放和前置错误的疑问

构造函数中出错,此错误在用户代码层面,可以capture,na

2014-06-18 00:32:59 424

原创 file lock and thread sync operations (I)

第一点,多线程,每个线程都open flock write,不必explicitly sync threads(mutex、rdlock等),每个线程操作锁的顺序内部有序,并且,如果文件以append方式打开,文件写入不会混乱,如果以trunc方式打开,则文件内容可能混乱(write offset的原因,引起覆盖)。第二点,flock,是进程层面的锁(第一点可印证),同时,这个锁与kernel

2014-06-16 16:23:30 566

原创 从EMFILE和ENFILE说起,fd limit的问题(一)

下面的描述,统一用“fd”来表示通常所说的“文件句柄”。UNIX/Linux系,称为“文件描述符(file descriptor)”,也因此才有“fd”这个缩写。“文件句柄”,貌似是Windows系的说法。从问题入手。与“Too many open files”这个错误相关的errno有EMFILE和ENFILE,查看open、socket、accept、socketpair、pi

2014-06-05 19:03:38 11611

原创 一个nginx配置小问题

【结论】目前的配置,可以完成基本的功能,但使nginx要处理的请求的数量,增加了一倍(下面详述),所以,要尽可能避免像目前这样配置,可以有更合适的配置。【要实现的功能】使客户端发起的类似http://cq01-testing-ibase11.vm.baidu.com:8080/lightapp/1767031这样的请求,首先变成http://cq01-testing-ibase

2014-05-15 11:37:30 452

原创 Linux thundering herd

惊群的定义(http://en.wikipedia.org/wiki/Thundering_herd_problem):The thundering herd problem occurs when a large number of processes waiting for an event are awoken when that event occurs, but only one p

2014-05-15 11:33:45 1497

原创 nginx+lua的好处浅析之一

nginx's event cycle + lua coroutine实现了一种conceptual parallelism based on events。本质上,nginx's event cycle在Linux下的实现,就是基于epoll ET,以及EAGAIN、EWOULDBLOCK、EBUSY、EINTR等errno。这和lighttpd等实现了event-based async

2014-05-15 11:26:37 1868

原创 HTTP server + PHP-FPM挂掉雏析

C/S model & process model:Web server (nginx or lighttpd) as clients PHP-FPM as server, forking pm.max_children PHP FCGI processes从表面看,是PHP hang住了。引起这个现象的原因,分为两个方面。对以下这些原因的原因,没有进行分析。php-

2014-05-15 11:17:24 1411

原创 PHP扩展使用libpng出core

coredump是由php-cgi产生的,不好调式。一是无法对php-cgi充分请求,以复现core,二是我在lirui04的机器上,gdb run给php-cgi传参数时,提示--fpm这个参数有问题。根据coredump的调用栈信息,core最终出在fwrite标准库函数,根据理论和经验,可能导致fwrite出core的,依次是其第4个参数和第1个参数。根据qrenco

2014-05-14 20:22:11 1104

原创 multi-process & cpu with multi-cores

多进程任务,由于core数的增加,会大大的增加其对于cache、总线等共享资源的争夺,从而造成E5-2620的表现比预期的要低,甚至出现不及E5620的现象。 最近,我们处理了几个关于PHP的问题,恰恰印证了我们的观点。E5-2620在多进程,尤其是类似PHP这样启动200个进程的应用,确实出现了大量争夺共享资源而造成低性能的表现。 这些PHP产品线反映的问题是:在使用E5-2

2014-05-14 20:17:22 2574

原创 mail技术相关

做了个发送mail的小程序。根据uid list获取email address list,然后发mail,指定subject,mail body是HTML的。用到的技术:PHP mail函数,Linux mail程序,两者都和sendmail(或者有sendmail wrapper的qmail、postman等)相关。事后复习:SMTP,IMAP,MIME;ph

2012-07-26 15:04:15 419

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除