大数据
mlwise
这个作者很懒,什么都没留下…
展开
-
Hive UDF函数扩展实现步骤
Hive自定义函数中主要分为三类UDF函数(一进一出),1.编写一个Java类,继承UDF类,并重载evaluate方法。方法中实现函数的逻辑(可以在一个Java类中实现多个函数)。2. 把程序打包成Jar,上传到HiveServer所在机器或者HDFS上。3. 客户端命令行中添加Jar包到Hive的classpath中,可以直接放到${HIVE_HOME}/lib中 hive> add Jar /xxx/xxx/xxx.jar 命令格式4.注册成为临时函数或永...原创 2021-10-06 00:10:22 · 218 阅读 · 0 评论 -
Hive和Oracle的多行转单列
1. Hive多行转单列,即行转列 一般行转列,Hive用concat_ws指定分隔符来拼接字符串,如果需要去重的话,还需要用collect_set,如果不需要去重,则可以用collect_list替代。模拟代码select t1.ID, concat_ws(';',collect_set(cast(t1.name as string))) namefrom user_list t1group by ID2. Oracle的多行转单列,即行转列Oracle的行...原创 2021-07-11 00:36:24 · 564 阅读 · 0 评论 -
Oracle生成当前时间到上一年末所有月末日期数据
很多时候,我们要统计上一年末到当前月份,每个月月末数据,则需要生成每个月底日期和相关业务数据进行关联。SELECT to_char(ADD_MONTHS(trunc(to_date('20210630', 'yyyymmdd'), 'yyyy') -1, ROWNUM - 1),'yyyymmdd') as mouthstr FROM DUAL CONNECT BY ROWNUM <= months_between(to_dat.原创 2021-07-08 17:07:17 · 2078 阅读 · 0 评论 -
当年取最新月份历史取年末数据
SELECT *FROM ( SELECT t.*, ROW_NUMBER() OVER( PARTITION BY stats_year, stats_subject ---stats_subject 统计科目 ORDER BY stats_month DESC, data_dt DESC ...原创 2021-07-08 10:31:53 · 106 阅读 · 0 评论 -
Oracle数仓分区表创建及其数据清理存储过程
Oracle数仓中,由于客户要求不能有delete语句,delete语句会对每一条数据记录一条日志,造成很慢,日志太大的问题。同时由于传统数仓容量限制,需要对历史数据进行一个归档,归档之后需要对历史数据进行清理,因此Ods采用了分区表设计。ODS采用按天列表分区,重跑时需要清理已存在的分区数据,非重跑时需要增加按天分区。清理的Oracle存储过程如下:-- 清理分区数据或创建分区-- v_tabname 表名-- v_tabpartition 分区名字-- v_bizdate 分区值C...原创 2021-04-12 16:32:42 · 766 阅读 · 0 评论 -
Kerberos常用命令用法
1. Kerberos简介 Kerberos就是一种网络认证的协议,提供了一种登录认证的方法,常用在大数据集群中hadoop相关组件中的安全认证功能,和Kerberos类似的还有ldap。Kerberos主要包括认证服务器(AS),客户端和服务器。Principal是相当于用户名,是客户端和服务器的一个唯一名字,keytab文件是加密的认证文件,一般有Principal和keytab为后缀的认证文件就可以了。认证的时候很少直接使用密码。2. kerberos管理员常用命令2.1 登录K...原创 2020-10-08 22:29:28 · 14348 阅读 · 1 评论 -
Spark streaming应用状态监控及其自动重启脚本
Spark 应用的状态监控,应用提交,应用定时重启等等,有很多开源的组件可以用的方案,比如说hue,azkaban,oozie之类的。总有一些客户提供大数据环境,不提供一些工具,嫌弃工具的。那只能通过最原始的方法来提交Spark应用,应用状态监控只能通过脚本来实现。脚本主要内容每隔10分钟检查一次状态,如果不在运行,则重启。由于客户自己要求还加了一个凌晨无论在不在运行,都是先关闭,然后在重启。...原创 2020-03-16 16:20:44 · 560 阅读 · 0 评论 -
CDH升级Spark2异常java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream
最近为了适配客户版本,搭建了CDH5.16版本的数据数据环境。而默认的Spark是1.6版本的,为配合客户需要升级成Spark2,由于机器资源有限制,先把Spark1.6删除了,下载SPARK2-2.1.0.cloudera3-1.cdh5.13.3.p0.569822-el7.parcel包,进行了安装。安装完成之后,运行Spark的相关命令就报java.lang.NoClassDefFound...原创 2020-03-04 14:18:34 · 840 阅读 · 0 评论 -
CDH大数据平台安装phoenix-4.14.0
客户生产环境用的CDH 5.12.2企业版本,其他组件主要版本为kafka 0.9,hbase 1.2,spark1.6+spark2.1,phoenix4.14.0,JDK 1.7.0.67,由于公司开发时跟客户环境不完全一致,主要在HDP版本和apache版本的大数据平台测试相关应用,由于各种配置的问题,特别是Kerberos认证,导致线上运行特别不稳定。不得不在公司安装CDH的社区版来做基...原创 2020-03-01 01:33:18 · 759 阅读 · 0 评论 -
Spark hadoop票据过期问题HDFS_DELEGATION_TOKEN
问题描述:Spark streaming应用运行7天之后,自动退出,日志显示token for xxx(用户名): HDFS_DELEGATION_TOKEN owner=xxxx@xxxx.com, renewer=yarn, realUser=, issueDate=1581323654722, maxDate=1581928454722, sequenceNumber=6445344, m...原创 2020-02-18 17:42:48 · 1988 阅读 · 0 评论 -
heka 0.11.0源码分析--主要启动流程分析
heka主程序的启动源码为cmd/heka/main.go,首先来分析一下main函数源码如下:主程序代码分析func main() { exitCode := 0 // `os.Exit` will skip any registered deferred functions, so to support // exit codes we put it in the first reg...原创 2020-02-11 23:59:17 · 468 阅读 · 0 评论 -
heka 0.11.0源码分析--Elasticsearch OutPut插件
ElasticSearchOutputElasticSearchOutput插件使用HTTP或UDP将记录插入ElasticSearch数据库。由特定的编码器将消息序列化为JSON结构,同时转换成适当的ElasticSearch Bulk 批量API接口的 Indexing索引的JSON格式。通常,此插件与特定ElasticSearch的编码器插件结合使用,例如ElasticSearch JSO...原创 2020-02-11 14:50:59 · 311 阅读 · 0 评论 -
SparkStreaming发生java.lang.StackOverflowError的解决方案
在使用SparkStreaming做实时统计时,使用了mapWithState基于有状态的统计,必须使用Spark自带的checkpoint机制,使用这个机制会有带来很多问题,又没有更好的办法。有一个实时统计的应用在公司环境中一直运行都没啥问题,到了客户的生产环境中老是出问题,没有逃过一演示就崩的魔咒。公司开发使用的Apache版本,客户生产环境用的是CDH企业版本hadoop,管理端用的是CD...原创 2020-01-10 10:17:01 · 562 阅读 · 0 评论 -
挂载ISO镜像作为本地yum源
Linux系统安装的时候,没有全部都安装,一般没有特别的说明,安装的自带软件都是比较少的,可能是最小化安装的。再者很多生产的机器都是不联网的,无法再现安装,只能离线安装软件。安装软件有涉及到很多依赖,总之没有网络安装软件非常头痛的一件事情。而Linux系统很多RPM包都是在ISO镜像中能找到的,无需去网上以一个一个下载,RPM包一般位于ISO镜像中Packages目录下。本文主要是离线安装软件时...原创 2019-12-17 11:07:30 · 7832 阅读 · 0 评论 -
SSH免密登录(Linux)
ambari,CDH安装大数据环境,都需要ssh免密登录,当然手动安装apache版本的hadoop环境也需要。注意:访问的用户名和登录用户一致 如:三台机器都有root用户,以下的行为都基于同一用户第一步: 配置hadoopmaster节点无密码登录到其他节点,在hadoopmaster节点上操作 ssh-keygen -t rsa 运行结束以后, 默认在 ~/.ssh目录生成两...原创 2019-12-04 09:54:38 · 116 阅读 · 0 评论 -
presto部署安装配置
PRESTO安装配置PRESTO server 下载地址:https://repo1.maven.org/maven2/com/facebook/presto/presto-server/0.212/presto-server-0.212.tar.gzPRESTO client 下载地址:https://repo1.maven.org/maven2/com/facebook/presto/...原创 2019-12-03 15:40:20 · 430 阅读 · 0 评论