![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
天天同学Aa
梦想还是要有的,万一实现了呢
展开
-
oozie定时任务求出前一天
oozie怎么求出前一天最近写项目遇到一个难题,要求写一个定时任务,2号处理1号的日志,3号处理2号的日志。关于怎么求出前一天,做了以下总结首先用的是oozie定时任务,oozie官网 Oozie Coordinator Specification走起。因为要处理的是时间戳,所以要进行一个时间格式转换。官网Coordinator6.9.3格式转换,6.9.1求出前一天的时间 当然这个并没有局限...原创 2018-12-07 21:36:34 · 742 阅读 · 0 评论 -
hive和mysql的表的创建语句
hive 创表语句:create table student(id int,name string) partitioned by (ds string) row format dilimited fields terminated by ‘|’;hive 创建压缩表语句:create table student(id int,name string) partitioned by (ds ...原创 2018-12-17 19:52:28 · 1015 阅读 · 0 评论 -
虚拟机扩容手把手教学
给VMware下的Linux扩展磁盘空间(以CentOS6.5为例)#查看挂载点:df -h#显示:文件系统 容量 已用 可用 已用%% 挂载点/dev/mapper/vg_dc01-lv_root47G 12G 34G 25% /tmpfs 504M 88K 504M 1% /dev/shm/dev/sda1 485M 31M 429M 7% /boot一、扩展VMWare硬盘...原创 2018-12-22 10:47:37 · 238 阅读 · 0 评论 -
ip转long的接口
如何优雅而又从容的写出ip转long的java接口呢 ?(供pig使用)首先找到我这篇博客,然后复制粘贴,妥妥当当的。public class ip_long extends EvalFunc{@Overridepublic Long exec(Tuple arg0) throws IOException { String ip = arg0.get(0).toString(); ...原创 2018-12-10 19:37:56 · 124 阅读 · 0 评论 -
pig脚本报错总结
pig脚本错误总结:ERROR 2244: Job job_1544856965068_0022 failed, hadoop does not return any error message没有注册jar包注册方法 register /home/gtt/pig/lib/*.jarError during parsing. Cannot get schema from loadFun...原创 2018-12-15 17:25:51 · 818 阅读 · 0 评论 -
hive动态分区和静态分区的区别 分区报错
静态分区SP(static partition) 动态分区DP(dynamic partition) 静态分区与动态分区的主要区别在于静态分区是手动指定,而动态分区是通过数据来进行判断。详细来说,静态分区的列是在编译时期,通过用户传递来决定的;动态分区只有在SQL执行简单理解就是静态分区是只给给的死值,就比如gn=‘dnf’, 只有在是游戏名字是dnf的时候,数据才会进入这个分区 动态是...原创 2018-12-14 20:22:52 · 1750 阅读 · 0 评论 -
kafka使用说明
特性Kafka是一种高吞吐量 的分布式发布订阅消息系统,有如下特性:通过io的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。高吞吐量 :即使是非常普通的硬件Kafka也可以支持每秒数百万 的消息。支持通过Kafka服务器和消费机集群来分区消息。支持Hadoop并行数据加载。版本问题kafka有两个版本,新版kafka和旧版kafka 目...原创 2018-12-20 11:42:44 · 221 阅读 · 0 评论 -
如何把一个表从hdfs通过pig放到hive,并压缩
如何把一个表从hdfs通过pig放到hive,并压缩?(pig不支持load一个压缩表,所以说有点麻烦了)思路 首先放到hive的普通表里边,再建立一个压缩的分区表,把数据导入到压缩表。,insert into table project.flow partition (ds=1544144400,gn=‘mengsan’) select * from cp.flow;会报错 因为是分区表...原创 2018-12-08 20:05:34 · 319 阅读 · 0 评论 -
面试重点 hive的优化及hive安装出现问题的解决方案
一、安装时出现问题1.检查hive-site.xml是否配置正确检查主机名是否更换检查mysql账号密码是否正确2.检查hive/lib下是否有mysql驱动包3.检查hadoop服务是否开启4.检查mysql的服务是否启动5.检查mysql远程访问权限是否打开配置后重新启动mysql服务三个方面一、减少代码量二、从硬件上来说三、设置参数(开启动态分区) set hive...原创 2018-12-08 17:32:40 · 177 阅读 · 0 评论 -
oozie细节问题总结
首先写oozie之前一定要理清楚各个流程之间的关系,是用并行还是选择 或者顺序执行,理清楚再去动手,这样会事半功倍。另外如果流程过多,可单个流程进行测试,如果都没有问题,扔到oozie框架中进行测试。遇到的各种坑1.hdfs不一定会指定哪一台机器去执行任务,要确保每台机器上都要有jar 包,不然可能会报找不到jar包的异常2.配置完邮件需要重启服务3.orkflow版本用0.5,各个配置的...原创 2018-12-08 17:21:50 · 149 阅读 · 0 评论 -
oozie任务 提示连接拒绝 10020 8032
今天日常起服务,jps ok 然后开始跑oozie任务 然后总是报连接拒绝,一次10020,一次8032 后来发现是因为电脑内存不够 占用率高达95+ 系统会把某些服务给停了,导致任务起不来。跑任务跑不起来一定要jps看一下服务...原创 2018-12-12 15:31:16 · 695 阅读 · 0 评论 -
虚拟机网络设置
vim /etc/sysconfig/network-scripts/ifcfg-eth0DEVICE=eth0TYPE=EthernetONBOOT=yesNM_CONTROLLED=yesBOOTPROTO=staticIPADDR=192.168.2.103NETMASK=255.255.255.0GATEWAY=192.168.2.2DNS1=192.168.2.2虚拟...原创 2018-12-24 15:35:09 · 216 阅读 · 0 评论