自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(58)
  • 资源 (1)
  • 收藏
  • 关注

原创 【Hive】【Hadoop】工作中常操作的笔记-随时添加

HiveHadoopcascade字段

2023-12-16 17:32:13 661 1

原创 【Windows】win11鼠标右键默认显示更多选项

【代码】【Windows】win11鼠标右键默认显示更多选项。

2023-11-23 09:48:03 209

原创 Linux 命令rz yum tar 等遇到的问题记录

linux rz yum tar 失败 问题 记录

2022-08-30 17:21:36 1669 1

原创 【Sqoop】数据导入导出到Hive问题总结

sqoop 问题 import export Hive 导入 导出

2022-08-05 11:31:19 1574

原创 【Hive】CDP集群Hive NULL值排序前后的问题

HiveNULL排序

2022-08-02 21:31:54 1035

原创 MySQL、SQL Server、Hive对时间格式化

Hive MySQLSQL日期

2022-08-01 18:26:39 1678

原创 【IDEA】字体修改-护眼主题-文件注释头设置

idea 工具的设置,护眼主题

2022-06-11 16:55:19 377

原创 Hive 对空值的一些处理方法简单记录

1、处理空值select nvl() from table;hive空字符串数组和空数组空字符串数组 :array(’’)空数组:array()如果想查找表中的空字符串数组:方法:可以使用查找数组中的第一个值是否为空字符串select classify from table where classify[0]='';想查找表中空数组:方法:使用size判断数据大小是否为0select classify from table where size(classify)=0;...

2022-05-01 21:36:05 2824

原创 HTML字符Java转义&nbsp|&quot|&amp|&lt|&gt等

标题引入依赖<!-- https://mvnrepository.com/artifact/org.apache.commons/commons-lang3 --> <dependency> <groupId>org.apache.commons</groupId> <artifactId>commons-lang3</artifactId> &l

2022-03-28 13:31:49 3403

原创 Linux 软链接-简单使用(版本切换)

新建ln -s 源文件 目标文件修改ln -snf 源文件 目标文件删除rm -rf 软链接

2021-06-02 13:39:21 252

原创 【Hadoop】使用Hadoop Shell 命令导数据

hadoopshell

2021-02-09 14:21:08 592

原创 Linux-shell 按日期循环脚本数组遍历笔记

日期循环开始日期和结束日期可手动传进去#!/bin/bashstart_date =$1end_date=$2i=$start_datewhile [[ $i < `date -d "+1 day $start_date" +%Y-%m-%d` ]] do echo $i "---开始" bash / # 循环操作 echo $i "---结束" i=`date -d "+1 day $i" +%Y-%m-%d`......

2020-11-24 21:57:49 2517 1

原创 【Yarn】yarn常用命令 查看日志和Kill任务

工作中常用到的命令,记录一下将任务运行的日志写入文件方便查看yarn logs -applicationId applicationxxxxxx > xxxxxx.log将运行的任务杀掉yarn application -kill applicationxxxxxx

2020-10-24 15:19:35 1914 1

原创 Hive 使用内置函数实现 列转行

背景:最近公司给了项任务就是按目前现有的维度计算指标      由于指标较多,计算结果join 太过于浪费资源,所现将所有指标计算的结果定位[_id,var_name,var_value] 这种 schema ,在通过内置函数转成[Key,Value]的格式在通过函数转置进行列转行。在这分享个demo1、用到的内置函数str_to_map()、concat_ws()、collecct_list()、concat()2、创建测试表数据.

2020-10-24 15:11:45 199

原创 Linux查找含有特定字符的文件

记录一下find .|xargs grep -ri “xxx”

2020-10-22 09:46:32 588

原创 【Hadoop】(shell) Hadoop常用的shell命令

文章目录catchgrpchmodchowncopyFromLocalcopyToLocalFS Shell调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认scheme。一个HDFS文件或目

2020-08-23 10:53:10 350

原创 Invalid signature file digest for Manifest main attributes解决方法

打成jar再集群上运行的时候报错: Invalid signature file digest for Manifest main attributes临时处理方式zip -d jar_name 'META-INF/*.RSA META-INF/*.DSA META-INF/*.SF'不好的地方是每次打完包都要执行一次,删除多余的META文件彻底的解决方法暂时没有,后面有,再补充...

2020-08-17 10:50:26 1999 1

原创 【HQL】(三)Hive计算除数为0的情况结果

文章目录做个select测试在查询时做一些计算时担心类型,还有除数为0的情况做个select测试#建表use demo;create table number_t(id string,num string,numb bigint) stored as orc;#插入数据insert into number_t values("1","3",5);insert into number_t values("2","",5);insert into number_t values

2020-07-26 16:57:40 4202 1

原创 idea连接spark错误java.io.IOException: (null) entry in command string: null ls -F D:\tmp\hive

文章目录错误的原因解决办法准备用idea搭建项目,spark远程调试,遇到了这个错java.io.IOException: (null) entry in command string: null ls -F D:\tmp\hive错误的原因1、Window没有Hadoop的解压文件,更没有配置环境变量2、缺少winutils.exe和hadoop.dll文件解决办法1、将Hadoop的安装包解压(可以直接拿linux的安装包版本保持一致)2、配置环境变量3、将hadoop.dl

2020-07-26 16:15:26 1684 1

原创 【HQL】(二) Hive常用的日期函數

文章目录1.获取当前日期:current_date()2.UNIX时间戳函数: unix_timestamp3.UNIX时间戳转日期函数: from_unixtime4.日期比较函数: datediff()5.日期增加函数: date_add()6.日期减少函数: date_sub1.获取当前日期:current_date()语法: current_date()说明: 返回当前日期。返回值:举例:hive> select current_date()OK2020-07-14Time

2020-07-26 15:46:40 730

原创 【HQL】(二) 查询使用正则表达式做列选择

文章目录原表数据:查询除个别字段外的剩余所有字段踩了个坑工作中遇到这样的场景:查询时少数列不需要,需要的其余列数量又较多Hive 0.13.0之后,select列表支持正则表达式了查询时使用SELECT语句的时候采用正则表达式做列选择废话不多说上例子原表数据:hive> select * from tab1;OKuser_id opration log_time1 A 2019/5/11 A 2019/5/21 A 2019/5/32 A 2019/5/12 A 2019

2020-07-15 00:08:37 1026

原创 【HQL】(一)json字符串处理json_tuple和get_json_object

文章目录(1) get_json_object()(2) json_tuple()目前在公司做数据清洗,处理得数据都是json格式的,用到了这些方法,记录一下(1) get_json_object()get_json_object(jsonStr,path)  解析json的字符串jsonStr,返回path指定的内容。如果输入的json字符串无效,那么返回NULL。数据源:ods.bc_test表中的value字段值内容{ "id" : "5cb3b396eba44957ff99

2020-07-10 18:11:37 787

原创 【Hbase】(三) HBase批量导入数据(bulkload)

文章目录BulkLoad将大规模数据导入HBase一、数据准备二、上传到HDFS上三、通过MR生成Hfile文件四、加载到HBase中五、查看数据HBase中数据BulkLoad将大规模数据导入HBase有个1个T的文件,我要导入Hbase有什么方法?Java API 用I/O读数据,用Put方式把数据导进去。还有什么好的方法?我的表已经设计好了?我????一、数据准备rowkey_1,a,12rowkey_2,b,32rowkey_3,c,43rowkey_4,d,42创建一个表空

2020-05-22 22:30:04 1106

原创 【Hive】(七)Hive的join

文章目录SQL Joinsleft joinright joininner joinfull joinleft semi joinSQL JoinsSQL中的连接查询有inner join(内连接)、left join(左连接)、right join(右连接)、full join(全连接)left semi join(左半连接)五种方式,它们之间其实并没有太大区别,仅仅是查询出来的结果有所不同。left join(左联接): 返回包括左表中的所有记录和右表中联结字段相等的记录right join

2020-05-08 19:12:41 609

原创 【Flume】(一) Flume 学习笔记

文章目录一、Flume 组成架构二、Flume 拓扑结构三、Flume拦截器四、Flume的事务机制Flume 参数调优HDFS Sink小文件过多Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS。一、Flume 组成架构 1...

2020-04-28 00:56:34 210

原创 【Kafka】(一) Kafka 入门基础架构

一、Kafka 概述Kafka 是一个分布式的基于发布/订阅模式的消息队(MessageQueue),主要应用于大数据实时处理领域。1.1、Kafka基础架构1)Producer : 消息生产者,就是向 kafka broker 发消息的客户端;2)Consumer : 消息消费者,向 kafka broker 取消息的客户端;3)Consumer Group (CG): 消费者组...

2020-04-27 00:55:08 163

原创 【Hadoop】(四) Hadoop——MapRdeuce优化

文章目录一、MapReduce慢的原因二、MapReduce优化方法1、数据输入2、Map阶段3、Reduce阶段4、Shuffle阶段5、I/O传输6、数据倾斜三、HDFS小文件优化方法1、小文件弊端2、解决方案一、MapReduce慢的原因MapReduce程序效率的瓶颈在于两点:1.计算机性能CPU、内存、磁盘健康、网络2./O操作优化(1)数据倾斜(2) Map和Reduce...

2020-04-26 17:39:26 209

原创 【Hadoop】(三) Yarn 资源调度器

文章目录一、Yarn基本架构二、Yarn工作机制三、资源调度器1、FIFO调度器2、Capacity Scheduler(容量调度器)3、Fair Scheduler(公平调度器)   Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。一、Yarn基本架构YARN主要由Res...

2020-04-26 10:44:53 169

原创 【Spark】(一)Spark安装配置

浏览器输入地址192.168.56.171:9999。到主节点spark的sbin下运行。spark实现World Count。Scala(不安装进程也可以启动)2.1 配置conf目录下的。2.3 配置sbin目录下的。在虚拟机里面使用spark。

2020-04-25 13:09:21 276

转载 【Spark】(四) Spark调优总结

文章目录一、开发调优1、避免创建重复的RDD2、尽可能复用用一个RDD3、对多次使用的RDD进行持久化4、尽量避免使用shuffle类算子5、使用map-side预聚合的shuffle操作6、使用高性能的算子7、广播大变量。8、使用Kryo优化序列化性能。9、优化数据结构。10、对数据进行压缩。11、合并小文件。Spark的瓶颈一般来自于集群(standalone, yarn, mesos, ...

2020-04-25 11:53:44 250

原创 【Spark】(三) Spark Core

数据结构——RDDRDD: 弹性分布式数据集,spark核心,主要数据抽象分布式数据集  RDD是只读、分区记录的集合,每个分区在集群的不同节点上;RDD并不是存储真正的数据,只是对数据和操作的描述弹性:RDD默认存放在内存中,当内存不足,Spark自动将RDD写入磁盘容错性:根据数据血统,可以自动从节点失败中恢复分区DatasetDataFrameDAG:有向无环图,反映了RD...

2020-04-23 21:04:54 216 1

原创 【Spark】(二) Spark入门

Spark架构  spark框架原理:是基于内存的一种迭代式计算框架,处理的数据可以来自任何一种存储介质,如:关系型数据库,本地文件系统,分布式存储等,Spark从数据存储介质中装载需要处理的数据到内存中,并将这些数据集抽象为RDD(弹性分布式数据集对象),然后采用一系列的算子(封装计算逻辑的API)来处理这些RDD,并将处理好的额结果以RDD的形式输出到内存以数据流的方式持久化写入到其他存储介...

2020-04-23 15:30:25 441 1

原创 【HBase】HBase 数据倾斜、热点问题以及RowKey设计

文章目录一、热点问题和数据倾斜二、预分区和rowkey设计一、热点问题和数据倾斜  热点问题: HBase中的行是按照rowkey的字典顺序排序的,这种设计优化了scan操作,可以将相关的行以及会被一起读取的行存取在临近位置,便于scan。rowkey设计是热点的源头。有大量连续编号的row key ==> 大量row key相近的记录集中在个别region ==> cl...

2020-04-23 14:16:15 653 1

原创 【HBase】(二) HBase架构以及读写

一、 Hbase架构Client: 包含访问Hbase的接口维护cache来加快Hbase访问Zookeeper: 保证任何时候集群中只有一个master,保证所有的Region的寻址入口,实时监控Region Server的上下线,并通知Master。存储Hbase的schema和表元数据,分担客户端的请求,先连zkMaster: 为RegionServer分配Region,负责Regi...

2020-04-23 11:37:17 129

转载 【Zookeeper】(一)Zookeeper搭建

文章目录一、软件版本与系统环境二、zookeeper 安装1、xftp上传zookeeper压缩包并解压2、进入解压好的安装包 在conf文件夹下配置环境3、配置环境变量4、启动zookeeper三、配置文件中的注意点1、基本配置2、高级配置一、软件版本与系统环境下载地址(http://mirrors.hust.edu.cn/apache/ZooKeeper/)二、zookeeper 安装...

2020-04-23 10:42:17 198 1

原创 【Hive】(六) Hive 优化策略

文章目录一、Fetch抓取二、开启本地模式三、语句的优化1、小表、大表Join2、大表join大表3、MapJoin4、Group by5、Count(Distinct)去重统计6、笛卡尔积7、行列过滤四、存储优化五、表设计优化1、创建分区表采用动态分区2、创建分桶表六、合并输入输出小文件七、参数优化一、Fetch抓取Fetch 抓取是指,Hive 中对某些情况的查询可以不必使用 MapRed...

2020-04-23 00:31:44 304 1

原创 【HBase】(一) HBase安装配置+JavaAPI

一、安装前提已经搭建好的Hadoop环境准备zookeeper安装包找到官网下载 hbase 安装包 hbase-1.2.0-bin.tar.gz, 下载地址:http://mirrors.hust.edu.cn/apache/hbase/上传安装包到指定目录,解压tar -zxvf [文件] 二、修改配置文件==>进入conf目录下1.修改hbase-env.shexp...

2020-04-14 23:34:48 652

原创 【Hadoop】(三) Hadoop计算框架 MapReduce

分布式计算的基本原理思想mapreduce执行过程整个运行过程Yarn资源调度shuffle阶段环状数组,超出80M溢出写入硬盘

2020-04-13 11:10:02 704

原创 【Hive】(五)Hive函数—— 自定义函数

Hive函数 函数分类:  标准函数:一行数据中的一列或多列为输入,结果为单一值  聚合函数:多行的零列到多列为输入,结果为单一值  表生成函数:零个或多个输入,结果为多列或多行自定义函数UDF:自定义标准函数 1:1 输入一行,输出一行UDAF:自定义聚合函数 n:1 输入多行,输出一行UDTF:自定义表生成函数 1 : n 输入一行,输出多行一、UDF 1...

2019-12-19 23:13:58 371

转载 【Hive】(四)Hive函数——窗口函数

文章目录窗口函数聚合函数+over()关键字partition by子句order by子句window 子句序列函数ntile排序 row_number rank dense_rankLAG和LEAD函数first_value和last_value本文转载自:https://blog.csdn.net/weixin_38750084/article/details/82779910...

2019-12-17 19:53:10 147

hadoop.dll

java.io.IOException: (null) entry in command string: null ls -F *... 解决办法 需要的文件

2020-07-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除