- 博客(3)
- 资源 (6)
- 收藏
- 关注
原创 结合Scribe/RabbitMQ/pika实现为Hive动态添加partition元数据
现有架构中通过Scribe直接向HDFS中写入数据,大部分的对数据的操作都是通过Hive来进行的,所以需要在数据进入HDFS之后就能通过Hive来访问到具体的数据,这就需要以数据驱动来添加元数据。以前使用的方式是通过按照固定的时间间隔来执行一个并行批量添加元数据的Java程序,不过那样做可能会漏掉一些没有过来的partition的添加,为此我们还必须在第二天再一次执行,确保所有的数据都被映射到了H
2013-04-25 11:15:41 1925 2
原创 一种计算留存的思路
在一些统计系统中,为了观察用户的粘度,我们会计算一系列的叫做留存的指标——次日注册留存、2日注册留存...N日注册留存,比如昨天注册了1000名用户中,在今天有300名用户又登录了,那么对应于昨天的注册留存就是30%;如果再去细究,还可以去计算活跃用户的留存情况,比如昨天登录的1000名用户中,在今天,其中的100名用户又活跃了,那么对应于昨天的活跃次日留存就是10%。如果更细究下去的话,还可以去
2013-04-13 18:06:27 4437
原创 CentOS 6 64bit下,Python数据分析环境搭建
首先是基础环境安装: wget http://download.zeromq.org/zeromq-3.2.2.tar.gz tar xvzf zeromq-3.2.2.tar.gz cd zeromq-3.2.2 ./configure && make && make install yum install gcc-gfortran yum install freetype-devel yu
2013-04-11 09:58:25 5071 3
ASGI 3.0规范中文版.pdf
2019-12-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人