项目名称:邮箱数据处理分析

环境搭建: hadoop-2.0  hive-0.10  zookeeper-3.4.5 jdk-6 sqoop-1.99

测试阶段:目前集群4台机器,处理数据14TB(听说会扩展到12台左右)

每天机器的硬件配置要求:X86服务器

4颗cpu(6核) 32GB内存 4TB硬盘 4千兆网口

用到的框架: hive

    hive三种操作方式

    $HIVE_HOME/bin/hive -e 'select * from t1'

    $HIVE_HOME/bin/hive -f /home/my/hive-script.sql

    交互模式 $HIVE_HOME/bin/hive    

基本语法

    UDP函数

     性能优化

使用工具:SecureCTR

部署服务器:tomcat

展示方式:前段web展示,ETL自动调度

日常工作:脚本编写,数据验证

发展方向:技术和架构

  1. 自学和实际工作的差异?

    a) jdbc和封装的框架(hibernate,mybatis)

    b) Mapreduce和封装的框架(hive)

  2. 对于学习,做到哪点?

    a) 完成所有集群的搭建

    b)出错,请认真看看