ETL
tinyid
Java/Python
Hadoop/Spark/Presto/Kafka/Druid
numpy/matplotlib/pandas/scipy
展开
-
一个数据应用闭环
收集:各种开源的分布式日志收集系统:Scribe, Flume等等存储可以同时包含各种不同的存储类型,可根据不同的需求增减相应的存储类型:底层存储:能够存储大量的数据,最好具有可扩展性 HDFS S3等等关系存储:MySQL,Postgresql等等键值存储:HBase,Redis等等计算计算能力也应该同时包含集中不同的类型,可根据不同的需求增减相应原创 2012-11-14 18:17:24 · 2035 阅读 · 0 评论 -
使用Hive UDF和GeoIP库为Hive加入IP识别功能
Hive是基于Hadoop的数据管理系统,作为分析人员的即时分析工具和ETL等工作的执行引擎,对于如今的大数据管理与分析、处理有着非常大的意义。GeoIP是一套IP映射数据库,它定时更新,并且提供了各种语言的API,非常适合在做地域相关数据分析时的一个数据源。UDF是Hive提供的用户自定义函数的接口,通过实现它可以扩展Hive目前已有的内置函数。而为Hive加入一个IP映射函数,我们原创 2013-01-30 23:53:50 · 5083 阅读 · 4 评论 -
Fedora 17 下运行Kettle遇到"A fatal error has been detected by the Java Runtime Environment"
遇到此问题十分纠结,具体的报错信息如下:# A fatal error has been detected by the Java Runtime Environment:## SIGSEGV (0xb) at pc=0x0000000000000000, pid=6455, tid=139924755695360## JRE version: 6.0_35-b10# Java原创 2012-10-16 22:59:22 · 2838 阅读 · 0 评论 -
CentOS 5.x和CentOS 6.x限制单个用户线程数上限的不同行为
在使用HiveServer的过程中,通过一个Java程序向其并发提交多个Job,我们发现在同时提交的任务较多的时候,程序就会莫名其妙地卡住,并报出内存溢出(OOM)的错误,但是经过排查,系统还有数十GB的内存处于FREE状态,JVM的内存上限也非常大,所以可以断定问题的原因并不是因为内存不够,而有其它原因。根据以往的经验,我们在部署服务器的时候,会设置一个系统最大打开文件数量和系统最大原创 2014-03-07 11:32:05 · 5522 阅读 · 1 评论