cbigchaos-CSDN博客

1、处理空值select nvl() from table;hive空字符串数组和空数组空字符串数组：array(’’)空数组：array()如果想查找表中的空字符串数组：方法：可以使用查找数组中的第一个值是否为空字符串select classify from table where classify[0]='';想查找表中空数组：方法：使用size判断数据大小是否为0select classify from table where size(classify)=0;...

2022-05-01 21:36:05 3139

原创 HTML字符Java转义&nbsp|&quot|&amp|&lt|&gt等

标题引入依赖 <dependency> <groupId>org.apache.commons</groupId> <artifactId>commons-lang3</artifactId> &l

2022-03-28 13:31:49 4002

原创 Linux 软链接-简单使用(版本切换)

新建ln -s 源文件目标文件修改ln -snf 源文件目标文件删除rm -rf 软链接

2021-06-02 13:39:21 357

原创【Hadoop】使用Hadoop Shell 命令导数据

hadoopshell

2021-02-09 14:21:08 716

原创 Linux-shell 按日期循环脚本数组遍历笔记

日期循环开始日期和结束日期可手动传进去#!/bin/bashstart_date =$1end_date=$2i=$start_datewhile [[ $i < `date -d "+1 day $start_date" +%Y-%m-%d` ]] do echo $i "---开始" bash / # 循环操作 echo $i "---结束" i=`date -d "+1 day $i" +%Y-%m-%d`......

2020-11-24 21:57:49 2865 1

原创【Yarn】yarn常用命令查看日志和Kill任务

工作中常用到的命令，记录一下将任务运行的日志写入文件方便查看yarn logs -applicationId applicationxxxxxx > xxxxxx.log将运行的任务杀掉yarn application -kill applicationxxxxxx

2020-10-24 15:19:35 2916 1

原创 Hive 使用内置函数实现列转行

背景：最近公司给了项任务就是按目前现有的维度计算指标由于指标较多，计算结果join 太过于浪费资源，所现将所有指标计算的结果定位[_id,var_name,var_value] 这种 schema ,在通过内置函数转成[Key,Value]的格式在通过函数转置进行列转行。在这分享个demo1、用到的内置函数str_to_map()、concat_ws()、collecct_list()、concat()2、创建测试表数据.

2020-10-24 15:11:45 269

原创 Linux查找含有特定字符的文件

记录一下find .|xargs grep -ri “xxx”

2020-10-22 09:46:32 643

原创【Hadoop】(shell) Hadoop常用的shell命令

文章目录catchgrpchmodchowncopyFromLocalcopyToLocalFS Shell调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统，scheme是hdfs，对本地文件系统，scheme是file。其中scheme和authority参数都是可选的，如果未加指定，就会使用配置中指定的默认scheme。一个HDFS文件或目

2020-08-23 10:53:10 427

原创 Invalid signature file digest for Manifest main attributes解决方法

打成jar再集群上运行的时候报错: Invalid signature file digest for Manifest main attributes临时处理方式zip -d jar_name 'META-INF/*.RSA META-INF/*.DSA META-INF/*.SF'不好的地方是每次打完包都要执行一次，删除多余的META文件彻底的解决方法暂时没有，后面有，再补充...

2020-08-17 10:50:26 2194 1

原创【HQL】（三）Hive计算除数为0的情况结果

文章目录做个select测试在查询时做一些计算时担心类型，还有除数为0的情况做个select测试#建表use demo;create table number_t(id string,num string,numb bigint) stored as orc;#插入数据insert into number_t values("1","3",5);insert into number_t values("2","",5);insert into number_t values

2020-07-26 16:57:40 4767 1

原创 idea连接spark错误java.io.IOException: (null) entry in command string: null ls -F D:\tmp\hive

文章目录错误的原因解决办法准备用idea搭建项目，spark远程调试，遇到了这个错java.io.IOException: (null) entry in command string: null ls -F D:\tmp\hive错误的原因1、Window没有Hadoop的解压文件，更没有配置环境变量2、缺少winutils.exe和hadoop.dll文件解决办法1、将Hadoop的安装包解压（可以直接拿linux的安装包版本保持一致）2、配置环境变量3、将hadoop.dl

2020-07-26 16:15:26 1921 1

原创【HQL】(二) Hive常用的日期函數

文章目录1.获取当前日期：current_date()2.UNIX时间戳函数: unix_timestamp3.UNIX时间戳转日期函数: from_unixtime4.日期比较函数: datediff()5.日期增加函数: date_add()6.日期减少函数: date_sub1.获取当前日期：current_date()语法: current_date()说明: 返回当前日期。返回值:举例：hive> select current_date()OK2020-07-14Time

2020-07-26 15:46:40 962

原创【HQL】(二) 查询使用正则表达式做列选择

文章目录原表数据：查询除个别字段外的剩余所有字段踩了个坑工作中遇到这样的场景：查询时少数列不需要，需要的其余列数量又较多Hive 0.13.0之后，select列表支持正则表达式了查询时使用SELECT语句的时候采用正则表达式做列选择废话不多说上例子原表数据：hive> select * from tab1;OKuser_id opration log_time1 A 2019/5/11 A 2019/5/21 A 2019/5/32 A 2019/5/12 A 2019

2020-07-15 00:08:37 1193

原创【HQL】（一）json字符串处理json_tuple和get_json_object

文章目录(1) get_json_object()(2) json_tuple()目前在公司做数据清洗，处理得数据都是json格式的，用到了这些方法，记录一下(1) get_json_object()get_json_object(jsonStr,path) 解析json的字符串jsonStr,返回path指定的内容。如果输入的json字符串无效，那么返回NULL。数据源：ods.bc_test表中的value字段值内容{ "id" : "5cb3b396eba44957ff99

2020-07-10 18:11:37 960

原创【Hbase】(三) HBase批量导入数据(bulkload)

文章目录BulkLoad将大规模数据导入HBase一、数据准备二、上传到HDFS上三、通过MR生成Hfile文件四、加载到HBase中五、查看数据HBase中数据BulkLoad将大规模数据导入HBase有个1个T的文件，我要导入Hbase有什么方法？Java API 用I/O读数据，用Put方式把数据导进去。还有什么好的方法？我的表已经设计好了？我？？？？一、数据准备rowkey_1,a,12rowkey_2,b,32rowkey_3,c,43rowkey_4,d,42创建一个表空

2020-05-22 22:30:04 1323

原创【Hive】（七）Hive的join

文章目录SQL Joinsleft joinright joininner joinfull joinleft semi joinSQL JoinsSQL中的连接查询有inner join(内连接）、left join(左连接)、right join（右连接）、full join（全连接）left semi join(左半连接)五种方式，它们之间其实并没有太大区别，仅仅是查询出来的结果有所不同。left join(左联接)：返回包括左表中的所有记录和右表中联结字段相等的记录right join

2020-05-08 19:12:41 1460

原创【Flume】(一) Flume 学习笔记

文章目录一、Flume 组成架构二、Flume 拓扑结构三、Flume拦截器四、Flume的事务机制Flume 参数调优HDFS Sink小文件过多Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。Flume最主要的作用就是，实时读取服务器本地磁盘的数据，将数据写入到HDFS。一、Flume 组成架构 1...

2020-04-28 00:56:34 261

原创【Kafka】(一) Kafka 入门基础架构

一、Kafka 概述Kafka 是一个分布式的基于发布/订阅模式的消息队（MessageQueue），主要应用于大数据实时处理领域。1.1、Kafka基础架构1）Producer ：消息生产者，就是向 kafka broker 发消息的客户端；2）Consumer ：消息消费者，向 kafka broker 取消息的客户端；3）Consumer Group （CG）：消费者组...

2020-04-27 00:55:08 222

原创【Hadoop】(四) Hadoop——MapRdeuce优化

文章目录一、MapReduce慢的原因二、MapReduce优化方法1、数据输入2、Map阶段3、Reduce阶段4、Shuffle阶段5、I/O传输6、数据倾斜三、HDFS小文件优化方法1、小文件弊端2、解决方案一、MapReduce慢的原因MapReduce程序效率的瓶颈在于两点:1.计算机性能CPU、内存、磁盘健康、网络2./O操作优化(1)数据倾斜(2) Map和Reduce...

2020-04-26 17:39:26 271

原创【Hadoop】(三) Yarn 资源调度器

文章目录一、Yarn基本架构二、Yarn工作机制三、资源调度器1、FIFO调度器2、Capacity Scheduler（容量调度器）3、Fair Scheduler（公平调度器） Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。一、Yarn基本架构YARN主要由Res...

2020-04-26 10:44:53 316

原创【Spark】（一）Spark安装配置

浏览器输入地址192.168.56.171:9999。到主节点spark的sbin下运行。spark实现World Count。Scala（不安装进程也可以启动）2.1 配置conf目录下的。2.3 配置sbin目录下的。在虚拟机里面使用spark。

2020-04-25 13:09:21 405

转载【Spark】(四) Spark调优总结

文章目录一、开发调优1、避免创建重复的RDD2、尽可能复用用一个RDD3、对多次使用的RDD进行持久化4、尽量避免使用shuffle类算子5、使用map-side预聚合的shuffle操作6、使用高性能的算子7、广播大变量。8、使用Kryo优化序列化性能。9、优化数据结构。10、对数据进行压缩。11、合并小文件。Spark的瓶颈一般来自于集群(standalone, yarn, mesos, ...

2020-04-25 11:53:44 522

原创【Spark】(三) Spark Core

数据结构——RDDRDD: 弹性分布式数据集，spark核心，主要数据抽象分布式数据集 RDD是只读、分区记录的集合，每个分区在集群的不同节点上；RDD并不是存储真正的数据，只是对数据和操作的描述弹性：RDD默认存放在内存中，当内存不足，Spark自动将RDD写入磁盘容错性：根据数据血统，可以自动从节点失败中恢复分区DatasetDataFrameDAG：有向无环图，反映了RD...

2020-04-23 21:04:54 458 1

原创【Spark】(二) Spark入门

Spark架构 spark框架原理：是基于内存的一种迭代式计算框架，处理的数据可以来自任何一种存储介质，如：关系型数据库，本地文件系统，分布式存储等，Spark从数据存储介质中装载需要处理的数据到内存中，并将这些数据集抽象为RDD(弹性分布式数据集对象)，然后采用一系列的算子（封装计算逻辑的API）来处理这些RDD,并将处理好的额结果以RDD的形式输出到内存以数据流的方式持久化写入到其他存储介...

2020-04-23 15:30:25 571 1

原创【HBase】HBase 数据倾斜、热点问题以及RowKey设计

文章目录一、热点问题和数据倾斜二、预分区和rowkey设计一、热点问题和数据倾斜热点问题： HBase中的行是按照rowkey的字典顺序排序的，这种设计优化了scan操作，可以将相关的行以及会被一起读取的行存取在临近位置，便于scan。rowkey设计是热点的源头。有大量连续编号的row key ==> 大量row key相近的记录集中在个别region ==> cl...

2020-04-23 14:16:15 747 1

原创【HBase】(二) HBase架构以及读写

一、 Hbase架构Client: 包含访问Hbase的接口维护cache来加快Hbase访问Zookeeper：保证任何时候集群中只有一个master,保证所有的Region的寻址入口，实时监控Region Server的上下线，并通知Master。存储Hbase的schema和表元数据，分担客户端的请求，先连zkMaster: 为RegionServer分配Region,负责Regi...

2020-04-23 11:37:17 171

转载【Zookeeper】（一）Zookeeper搭建

文章目录一、软件版本与系统环境二、zookeeper 安装1、xftp上传zookeeper压缩包并解压2、进入解压好的安装包在conf文件夹下配置环境3、配置环境变量4、启动zookeeper三、配置文件中的注意点1、基本配置2、高级配置一、软件版本与系统环境下载地址(http://mirrors.hust.edu.cn/apache/ZooKeeper/)二、zookeeper 安装...

2020-04-23 10:42:17 230 1

原创【Hive】(六) Hive 优化策略

文章目录一、Fetch抓取二、开启本地模式三、语句的优化1、小表、大表Join2、大表join大表3、MapJoin4、Group by5、Count(Distinct)去重统计6、笛卡尔积7、行列过滤四、存储优化五、表设计优化1、创建分区表采用动态分区2、创建分桶表六、合并输入输出小文件七、参数优化一、Fetch抓取Fetch 抓取是指，Hive 中对某些情况的查询可以不必使用 MapRed...

2020-04-23 00:31:44 610 1

原创【HBase】(一) HBase安装配置+JavaAPI

一、安装前提已经搭建好的Hadoop环境准备zookeeper安装包找到官网下载 hbase 安装包 hbase-1.2.0-bin.tar.gz，下载地址：http://mirrors.hust.edu.cn/apache/hbase/上传安装包到指定目录，解压tar -zxvf [文件] 二、修改配置文件==>进入conf目录下1.修改hbase-env.shexp...

2020-04-14 23:34:48 723

原创【Hadoop】(三) Hadoop计算框架 MapReduce

分布式计算的基本原理思想mapreduce执行过程整个运行过程Yarn资源调度shuffle阶段环状数组，超出80M溢出写入硬盘

2020-04-13 11:10:02 1026

hadoop.dll

空空如也