邮箱数据处理分析

weixin_34110749

于 2014-11-21 16:51:00 发布

阅读量629

点赞数

文章标签：大数据 java

原文链接：http://blog.51cto.com/haijiang/1580956

版权

项目名称：邮箱数据处理分析

环境搭建： hadoop-2.0 hive-0.10 zookeeper-3.4.5 jdk-6 sqoop-1.99

测试阶段：目前集群4台机器，处理数据14TB(听说会扩展到12台左右)

每天机器的硬件配置要求：X86服务器

4颗cpu（6核） 32GB内存 4TB硬盘 4千兆网口

用到的框架： hive

hive三种操作方式

$HIVE_HOME/bin/hive -e 'select * from t1'

$HIVE_HOME/bin/hive -f /home/my/hive-script.sql

交互模式 $HIVE_HOME/bin/hive

基本语法

UDP函数

性能优化

使用工具：SecureCTR

部署服务器：tomcat

展示方式：前段web展示，ETL自动调度

日常工作：脚本编写，数据验证

发展方向：技术和架构

自学和实际工作的差异？
a) jdbc和封装的框架（hibernate，mybatis）
b) Mapreduce和封装的框架（hive）
对于学习，做到哪点？
a) 完成所有集群的搭建
b）出错，请认真看看

转载于:https://blog.51cto.com/haijiang/1580956

weixin_34110749

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
邮箱数据处理分析

项目名称：邮箱数据处理分析环境搭建： hadoop-2.0 hive-0.10 zookeeper-3.4.5 jdk-6 sqoop-1.99测试阶段：目前集群4台机器，处理数据14TB(听说会扩展到12台左右)每天机器的硬件配置要求：X86服务器4颗cpu（6核） 32GB内存 4TB硬盘 4千兆网口用到的框架： hivehive三种操作方式 $HIVE...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。