关闭

Shell遍历hadoop目录的批量操作

需求背景每天产生3T(约2.5W个gz压缩文件)的DPI日志文件,因存储等各种问题,需要尽可能的节约存储。日志文件中有26个字段,根据业务需求需要提取6个字段。解决方法 通过shell脚本 通过MR程序(推荐,本篇不做论述) 结论: 经验证得出的结论shell脚本大约5~10S处理一个文件,比较慢,对于这样大量且分散的情况,不推荐,但可以提供一个思路。 根据实际情况处理步骤...
阅读(1807) 评论(1)

HIVE 查询显示列名 及 行转列显示

进入hive模式:set hive.cli.print.header=true; // 打印列名 set hive.cli.print.row.to.vertical=true; // 开启行转列功能, 前提必须开启打印列名功能 set hive.cli.print.row.to.vertical.num=1; // 设置每行显示的列数...
阅读(1508) 评论(0)

Hdfs 导入Hive,时间相关的字段 导入后为NULL

CREATE TABLE OFFER_${day_id} ( OFFER_ID BIGINT, ATOM_ACTION_ID BIGINT, PARTY_ID BIGINT, OFFER_SPEC_ID BIGINT, OFFER_NBR STRING, AREA_ID INT, MKT_ACTIVITY_ID BIGINT, START_DT STRING, END_...
阅读(624) 评论(0)

大数据文件分隔符

hadoop 文件分隔符...
阅读(1177) 评论(0)

监控Hbase是否可用的外挂程序

Java程序 运行在linux主机上, 通过shell脚本启动为进程。 Java程序中 通过定时任务,设置访问Hbase的时间间隔,设置告警规则,比如三次获取Hbase中的数据失败,则调用存过,遍历配置的告警号码,插入短信中间表,实现短信的发送。 项目结构如下 启动脚本分析根据服务器上JDK 以及工程部署路径 修改相应的#JDK所在路径 APP_HOME 启动入口类APP_MAI...
阅读(612) 评论(0)
    个人资料
    • 访问:424015次
    • 积分:8892
    • 等级:
    • 排名:第2137名
    • 原创:360篇
    • 转载:0篇
    • 译文:0篇
    • 评论:41条
    博客专栏