大数据
jamst8522127
这个作者很懒,什么都没留下…
展开
-
rails应对大型数据流的一个运用事例
今日学习了WLAN系统的相关大数据处理方案。总结一下相关的认识和思路:系统使用双数据库。mysql存储配置数据和对象原始数据、ORACLE存储对象相关的性能数据(性能数据量庞大)要在上千台AP、AC机器当中采集众多指标数据存如数据库中做实时综合展示,光用ruby是不够的。整个系统分三部分难点:1、数据的采集;2、数据的汇聚展示、3实时告警难点一解决方案:用erl...原创 2013-04-11 12:55:11 · 91 阅读 · 0 评论 -
sqoop常用命令
sqoop常用命令2013-12-12 20:08 793人阅读 评论(0) 收藏 举报目录(?)[+]1、列出mysql数据库中的所有数据库 sqoop list-databases --connect jdbc:mysql://localhost:3306/ -username dyh -password 000000 2、连接mysql并列出数据库中的表s...原创 2014-08-06 10:04:47 · 154 阅读 · 1 评论 -
hadoop的测试实例
启动 Hadoop 1.格式化文件系统 hadoop namenode –format 2. 启动hadoop 启动关闭所有服务 start-all.sh/stop-all.sh 启动关闭HDFS: start-dfs.sh/stop-dfs.sh 启动关闭MapReduce: start-mapred.sh/stop-mapred.sh...原创 2014-08-07 13:04:26 · 176 阅读 · 0 评论 -
PIG JOIN 的replicated后标写入内存用法
'''一句话总结:PIG 在2个表JOIN的时候,如果使用Using 'replicated' 会将后面的表分段读到内存中,从而加快JOIN的效率。但是如果load 到内存的数据超过JVM的限制就会报错==>java.lang.OutOfMemoryError: Java heap space内存溢出'''情节: 年前写了一个用户session处理的PIG脚本,各种...原创 2014-08-07 16:22:23 · 214 阅读 · 0 评论 -
pig:group by之后的其它统计方法一
pig:group by之后的其它统计方法一复制代码 1 --测试Top N后的其它统计 2 A = LOAD '/TraceParser/blackcore/' USING PigStorage() as (lk_id:chararray,host:chararray); 3 --DUMP A; 4 5 B = GROUP A BY lk_id; 6 B =...原创 2014-10-16 15:39:55 · 629 阅读 · 0 评论 -
关系数据库导入hdfs
方法一:使用sqoop:sqoop import --connect $1 --table eventinfos --columns "id, client_id, event_name, deduplication, deduplication_type" \ --target-dir /conversion_mapping/lookups/eventinfos \...原创 2015-09-09 14:33:42 · 109 阅读 · 0 评论