- 博客(58)
- 资源 (1)
- 收藏
- 关注
原创 Hive 对空值的一些处理方法简单记录
1、处理空值select nvl() from table;hive空字符串数组和空数组空字符串数组 :array(’’)空数组:array()如果想查找表中的空字符串数组:方法:可以使用查找数组中的第一个值是否为空字符串select classify from table where classify[0]='';想查找表中空数组:方法:使用size判断数据大小是否为0select classify from table where size(classify)=0;...
2022-05-01 21:36:05 3005
原创 HTML字符Java转义 |"|&|<|>等
标题引入依赖<!-- https://mvnrepository.com/artifact/org.apache.commons/commons-lang3 --> <dependency> <groupId>org.apache.commons</groupId> <artifactId>commons-lang3</artifactId> &l
2022-03-28 13:31:49 3765
原创 Linux-shell 按日期循环脚本数组遍历笔记
日期循环开始日期和结束日期可手动传进去#!/bin/bashstart_date =$1end_date=$2i=$start_datewhile [[ $i < `date -d "+1 day $start_date" +%Y-%m-%d` ]] do echo $i "---开始" bash / # 循环操作 echo $i "---结束" i=`date -d "+1 day $i" +%Y-%m-%d`......
2020-11-24 21:57:49 2764 1
原创 【Yarn】yarn常用命令 查看日志和Kill任务
工作中常用到的命令,记录一下将任务运行的日志写入文件方便查看yarn logs -applicationId applicationxxxxxx > xxxxxx.log将运行的任务杀掉yarn application -kill applicationxxxxxx
2020-10-24 15:19:35 2471 1
原创 Hive 使用内置函数实现 列转行
背景:最近公司给了项任务就是按目前现有的维度计算指标 由于指标较多,计算结果join 太过于浪费资源,所现将所有指标计算的结果定位[_id,var_name,var_value] 这种 schema ,在通过内置函数转成[Key,Value]的格式在通过函数转置进行列转行。在这分享个demo1、用到的内置函数str_to_map()、concat_ws()、collecct_list()、concat()2、创建测试表数据.
2020-10-24 15:11:45 243
原创 【Hadoop】(shell) Hadoop常用的shell命令
文章目录catchgrpchmodchowncopyFromLocalcopyToLocalFS Shell调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认scheme。一个HDFS文件或目
2020-08-23 10:53:10 378
原创 Invalid signature file digest for Manifest main attributes解决方法
打成jar再集群上运行的时候报错: Invalid signature file digest for Manifest main attributes临时处理方式zip -d jar_name 'META-INF/*.RSA META-INF/*.DSA META-INF/*.SF'不好的地方是每次打完包都要执行一次,删除多余的META文件彻底的解决方法暂时没有,后面有,再补充...
2020-08-17 10:50:26 2107 1
原创 【HQL】(三)Hive计算除数为0的情况结果
文章目录做个select测试在查询时做一些计算时担心类型,还有除数为0的情况做个select测试#建表use demo;create table number_t(id string,num string,numb bigint) stored as orc;#插入数据insert into number_t values("1","3",5);insert into number_t values("2","",5);insert into number_t values
2020-07-26 16:57:40 4556 1
原创 idea连接spark错误java.io.IOException: (null) entry in command string: null ls -F D:\tmp\hive
文章目录错误的原因解决办法准备用idea搭建项目,spark远程调试,遇到了这个错java.io.IOException: (null) entry in command string: null ls -F D:\tmp\hive错误的原因1、Window没有Hadoop的解压文件,更没有配置环境变量2、缺少winutils.exe和hadoop.dll文件解决办法1、将Hadoop的安装包解压(可以直接拿linux的安装包版本保持一致)2、配置环境变量3、将hadoop.dl
2020-07-26 16:15:26 1824 1
原创 【HQL】(二) Hive常用的日期函數
文章目录1.获取当前日期:current_date()2.UNIX时间戳函数: unix_timestamp3.UNIX时间戳转日期函数: from_unixtime4.日期比较函数: datediff()5.日期增加函数: date_add()6.日期减少函数: date_sub1.获取当前日期:current_date()语法: current_date()说明: 返回当前日期。返回值:举例:hive> select current_date()OK2020-07-14Time
2020-07-26 15:46:40 903
原创 【HQL】(二) 查询使用正则表达式做列选择
文章目录原表数据:查询除个别字段外的剩余所有字段踩了个坑工作中遇到这样的场景:查询时少数列不需要,需要的其余列数量又较多Hive 0.13.0之后,select列表支持正则表达式了查询时使用SELECT语句的时候采用正则表达式做列选择废话不多说上例子原表数据:hive> select * from tab1;OKuser_id opration log_time1 A 2019/5/11 A 2019/5/21 A 2019/5/32 A 2019/5/12 A 2019
2020-07-15 00:08:37 1146
原创 【HQL】(一)json字符串处理json_tuple和get_json_object
文章目录(1) get_json_object()(2) json_tuple()目前在公司做数据清洗,处理得数据都是json格式的,用到了这些方法,记录一下(1) get_json_object()get_json_object(jsonStr,path) 解析json的字符串jsonStr,返回path指定的内容。如果输入的json字符串无效,那么返回NULL。数据源:ods.bc_test表中的value字段值内容{ "id" : "5cb3b396eba44957ff99
2020-07-10 18:11:37 884
原创 【Hbase】(三) HBase批量导入数据(bulkload)
文章目录BulkLoad将大规模数据导入HBase一、数据准备二、上传到HDFS上三、通过MR生成Hfile文件四、加载到HBase中五、查看数据HBase中数据BulkLoad将大规模数据导入HBase有个1个T的文件,我要导入Hbase有什么方法?Java API 用I/O读数据,用Put方式把数据导进去。还有什么好的方法?我的表已经设计好了?我????一、数据准备rowkey_1,a,12rowkey_2,b,32rowkey_3,c,43rowkey_4,d,42创建一个表空
2020-05-22 22:30:04 1275
原创 【Hive】(七)Hive的join
文章目录SQL Joinsleft joinright joininner joinfull joinleft semi joinSQL JoinsSQL中的连接查询有inner join(内连接)、left join(左连接)、right join(右连接)、full join(全连接)left semi join(左半连接)五种方式,它们之间其实并没有太大区别,仅仅是查询出来的结果有所不同。left join(左联接): 返回包括左表中的所有记录和右表中联结字段相等的记录right join
2020-05-08 19:12:41 965
原创 【Flume】(一) Flume 学习笔记
文章目录一、Flume 组成架构二、Flume 拓扑结构三、Flume拦截器四、Flume的事务机制Flume 参数调优HDFS Sink小文件过多Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS。一、Flume 组成架构 1...
2020-04-28 00:56:34 234
原创 【Kafka】(一) Kafka 入门基础架构
一、Kafka 概述Kafka 是一个分布式的基于发布/订阅模式的消息队(MessageQueue),主要应用于大数据实时处理领域。1.1、Kafka基础架构1)Producer : 消息生产者,就是向 kafka broker 发消息的客户端;2)Consumer : 消息消费者,向 kafka broker 取消息的客户端;3)Consumer Group (CG): 消费者组...
2020-04-27 00:55:08 201
原创 【Hadoop】(四) Hadoop——MapRdeuce优化
文章目录一、MapReduce慢的原因二、MapReduce优化方法1、数据输入2、Map阶段3、Reduce阶段4、Shuffle阶段5、I/O传输6、数据倾斜三、HDFS小文件优化方法1、小文件弊端2、解决方案一、MapReduce慢的原因MapReduce程序效率的瓶颈在于两点:1.计算机性能CPU、内存、磁盘健康、网络2./O操作优化(1)数据倾斜(2) Map和Reduce...
2020-04-26 17:39:26 239
原创 【Hadoop】(三) Yarn 资源调度器
文章目录一、Yarn基本架构二、Yarn工作机制三、资源调度器1、FIFO调度器2、Capacity Scheduler(容量调度器)3、Fair Scheduler(公平调度器) Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。一、Yarn基本架构YARN主要由Res...
2020-04-26 10:44:53 297
原创 【Spark】(一)Spark安装配置
浏览器输入地址192.168.56.171:9999。到主节点spark的sbin下运行。spark实现World Count。Scala(不安装进程也可以启动)2.1 配置conf目录下的。2.3 配置sbin目录下的。在虚拟机里面使用spark。
2020-04-25 13:09:21 383
转载 【Spark】(四) Spark调优总结
文章目录一、开发调优1、避免创建重复的RDD2、尽可能复用用一个RDD3、对多次使用的RDD进行持久化4、尽量避免使用shuffle类算子5、使用map-side预聚合的shuffle操作6、使用高性能的算子7、广播大变量。8、使用Kryo优化序列化性能。9、优化数据结构。10、对数据进行压缩。11、合并小文件。Spark的瓶颈一般来自于集群(standalone, yarn, mesos, ...
2020-04-25 11:53:44 489
原创 【Spark】(三) Spark Core
数据结构——RDDRDD: 弹性分布式数据集,spark核心,主要数据抽象分布式数据集 RDD是只读、分区记录的集合,每个分区在集群的不同节点上;RDD并不是存储真正的数据,只是对数据和操作的描述弹性:RDD默认存放在内存中,当内存不足,Spark自动将RDD写入磁盘容错性:根据数据血统,可以自动从节点失败中恢复分区DatasetDataFrameDAG:有向无环图,反映了RD...
2020-04-23 21:04:54 446 1
原创 【Spark】(二) Spark入门
Spark架构 spark框架原理:是基于内存的一种迭代式计算框架,处理的数据可以来自任何一种存储介质,如:关系型数据库,本地文件系统,分布式存储等,Spark从数据存储介质中装载需要处理的数据到内存中,并将这些数据集抽象为RDD(弹性分布式数据集对象),然后采用一系列的算子(封装计算逻辑的API)来处理这些RDD,并将处理好的额结果以RDD的形式输出到内存以数据流的方式持久化写入到其他存储介...
2020-04-23 15:30:25 512 1
原创 【HBase】HBase 数据倾斜、热点问题以及RowKey设计
文章目录一、热点问题和数据倾斜二、预分区和rowkey设计一、热点问题和数据倾斜 热点问题: HBase中的行是按照rowkey的字典顺序排序的,这种设计优化了scan操作,可以将相关的行以及会被一起读取的行存取在临近位置,便于scan。rowkey设计是热点的源头。有大量连续编号的row key ==> 大量row key相近的记录集中在个别region ==> cl...
2020-04-23 14:16:15 711 1
原创 【HBase】(二) HBase架构以及读写
一、 Hbase架构Client: 包含访问Hbase的接口维护cache来加快Hbase访问Zookeeper: 保证任何时候集群中只有一个master,保证所有的Region的寻址入口,实时监控Region Server的上下线,并通知Master。存储Hbase的schema和表元数据,分担客户端的请求,先连zkMaster: 为RegionServer分配Region,负责Regi...
2020-04-23 11:37:17 151
转载 【Zookeeper】(一)Zookeeper搭建
文章目录一、软件版本与系统环境二、zookeeper 安装1、xftp上传zookeeper压缩包并解压2、进入解压好的安装包 在conf文件夹下配置环境3、配置环境变量4、启动zookeeper三、配置文件中的注意点1、基本配置2、高级配置一、软件版本与系统环境下载地址(http://mirrors.hust.edu.cn/apache/ZooKeeper/)二、zookeeper 安装...
2020-04-23 10:42:17 216 1
原创 【Hive】(六) Hive 优化策略
文章目录一、Fetch抓取二、开启本地模式三、语句的优化1、小表、大表Join2、大表join大表3、MapJoin4、Group by5、Count(Distinct)去重统计6、笛卡尔积7、行列过滤四、存储优化五、表设计优化1、创建分区表采用动态分区2、创建分桶表六、合并输入输出小文件七、参数优化一、Fetch抓取Fetch 抓取是指,Hive 中对某些情况的查询可以不必使用 MapRed...
2020-04-23 00:31:44 556 1
原创 【HBase】(一) HBase安装配置+JavaAPI
一、安装前提已经搭建好的Hadoop环境准备zookeeper安装包找到官网下载 hbase 安装包 hbase-1.2.0-bin.tar.gz, 下载地址:http://mirrors.hust.edu.cn/apache/hbase/上传安装包到指定目录,解压tar -zxvf [文件] 二、修改配置文件==>进入conf目录下1.修改hbase-env.shexp...
2020-04-14 23:34:48 685
原创 【Hadoop】(三) Hadoop计算框架 MapReduce
分布式计算的基本原理思想mapreduce执行过程整个运行过程Yarn资源调度shuffle阶段环状数组,超出80M溢出写入硬盘
2020-04-13 11:10:02 978
原创 【Hive】(五)Hive函数—— 自定义函数
Hive函数 函数分类: 标准函数:一行数据中的一列或多列为输入,结果为单一值 聚合函数:多行的零列到多列为输入,结果为单一值 表生成函数:零个或多个输入,结果为多列或多行自定义函数UDF:自定义标准函数 1:1 输入一行,输出一行UDAF:自定义聚合函数 n:1 输入多行,输出一行UDTF:自定义表生成函数 1 : n 输入一行,输出多行一、UDF 1...
2019-12-19 23:13:58 417
转载 【Hive】(四)Hive函数——窗口函数
文章目录窗口函数聚合函数+over()关键字partition by子句order by子句window 子句序列函数ntile排序 row_number rank dense_rankLAG和LEAD函数first_value和last_value本文转载自:https://blog.csdn.net/weixin_38750084/article/details/82779910...
2019-12-17 19:53:10 176
hadoop.dll
2020-07-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人