自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

LBJ_小松鼠的博客

Flink NLP CV

  • 博客(26)
  • 收藏
  • 关注

原创 Redis的常见类型的命令操作

Redis的常见类型有如下几种,string丶hash丶list丶set丶zset,他们简单且常用的命令操作在这里做一个总结:1. string# SET key value # 设置指定 key 的值set hello world# GET key # 获取指定 key 的值。GET hello# SETEX key seconds value# 将值 value 关联到 key ,并将 key 的过期时间设为 seconds (以秒为单位)。SETEX hello2 5 worl

2020-12-30 21:40:48 91

原创 在linux环境下单机redis的安装

windos本地安装redis就不介绍了,直接解压就可以用;下面重点讲解如何在Liunx环境下安装redis.1. 创建两个文件夹mkdir -p /export/sofeware/ --安装包存放路径mkdir -p /export/server/ --解压路径2. 下载redis安装包,我这里已经下载好了,直接上传cd /export/softwarewget http://download.redis.io/releases/redis-3.2.8.tar.gz --

2020-12-30 14:48:45 86 2

原创 解决Hive注释乱码

在mysql中执行:alter table hive.COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;alter table hive.TABLE_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;alter table hive.PARTITION_PARAMS modify column PARAM_VALUE

2020-12-29 19:43:50 107

原创 Hive常见面试题

1.大表join小表产生的问题,怎么解决?开启MapJoin(解决Reduce时候的数据倾斜). 就是在Map阶段进行表之间的连接。而不需要进入到Reduce阶段才进行连接。这样就节省了在Shuffle阶段(会跟磁盘打交道)时要进行的大量数据传输。从而起到了优化作业的作用。2. udf udaf udtf区别UDF操作作用于单个数据行,并且产生一个数据行作为输出。大多数函数都属于这一类(比如数学函数和字符串函数)。UDAF 接受多个输入数据行,并产生一个输出数据行。像COUNT和MAX这样的函

2020-12-29 18:52:20 1444

原创 Hive的调优以及数据倾斜问题

前言: 对于我们大数据工程师而言,掌握理解好Hive的调优是相当重要的,其中Hive的调优主要涉及到如下几个:压缩和存储调优,参数调优,sql的调优,数据倾斜调优,小文件问题的调优等~1. 数据的压缩的存储的格式:1.1 map阶段输出数据压缩 ,在这个阶段,优先选择一个低CPU开销的算法。set hive.exec.compress.intermediate=trueset mapred.map.output.compression.codec= org.apache.hadoop.io.

2020-12-29 18:00:11 223 1

原创 数仓中Hive的优化

1. Hive调优1.1 数据压缩在实际工作当中,hive当中处理的数据,一般都需要经过压缩,可以使用压缩来节省我们的MR处理的网络带宽1.MR支持的压缩编码2.压缩配置参数 要在Hadoop中启用压缩,可以配置如下参数(mapred-site.xml文件中)3.开启Map输出阶段压缩 开启map输出阶段压缩可以减少job中map和Reduce task间数据传输量。4.开启Reduce输出阶段压缩 当Hive将输出写入到表中时,输出内容同样可以进行压缩。属性 hive.exec.co

2020-12-27 19:30:04 254

原创 Hive函数date_sub() 和 nvl()

date_sub() 日期减少函数select date_sub('2020-12-12',10);说明:返回开始时间减去days天后的时间输出:2020-12-02nvl()判断是否为null值nvl(expr1,expr2)说明:如若expr1为null就返回expr2,否则返回expr1例如: select nvl(8888,9999);输出:8888例如:select nvl(null,9999);输出: 9999注意:expr1和expr2的类型要保持一致...

2020-12-25 09:10:53 2859

原创 Hive函数concat()和concat_ws()

concat() 字符串拼接select concat('刘','-','阿','-','福');输出: 刘-阿-福concat_wsselect concat_ws('-','liu','a','fu');输出: liu-a-fu根据自己的业务需求灵活选择应用即可!!

2020-12-25 09:00:42 1856

原创 Hive日期函数unix_timestamp()和from_unixtime()

unix_timestamp() 日期转时间戳select unix_timestamp();输出: 1608652071 --1970年1月1日到当前时间的毫秒值from_unixtime() 时间戳转日期select from_unixtime(1608651997,'yyyy-MM-dd HH:mm:ss');输出: 2020-12-22 23:46:37

2020-12-25 08:54:20 1194

原创 Hive的分区和分桶

1. 分区表分区不是独立的表模型,要和内部表或者外部表结合:内部分区表外部分区表在hive中,分区就是分文件夹1.创建表(单个分区)create table score(s_id string,c_id string, s_score int) partitioned by (month string) row format delimited fields terminated by '\t';解释:partitioned by 固定写法 表示分区 month string 要分区

2020-12-21 22:41:01 385

原创 Hive静态分区与动态分区

简介Hive中的分区就是分文件夹,建立分区的目的就是通过指定的方式来减少扫范围,进而提高查询效率,Hive中每个分区对应着表很多的子目录,将所有的数据按照分区列放入到不同的子目录中去。静态分区与动态分区Hive分区: 分区:根据插入时是否需要手动指定分区可以分为: 静态分区:导入数据时需要手动指定分区。(指定特定的文件夹也就是特定的值) 动态分区:导入数据时,系统可以动态判断目标分区。(不能直接用,要手动指定) 两者建表是没有任何区别 仅仅只是插入数据时有区别例如: 按年分区

2020-12-19 09:24:17 251 1

原创 yum install报failure: repodata/repomd.xml from cloudera-manager: [Errno 256] No more mirrors to try.

解决:yum install报failure: repodata/repomd.xml from cloudera-manager: [Errno 256] No more mirrors to try. 报错在CDH大数据集群中报错: yum install 的 yum源出错解决方法如下:将CDH构建的yum源删除掉即可:执行删除命令将这个两个删除即可:...

2020-12-18 11:33:04 1921 1

转载 OLTP与OLAP的区别和联系

先简单看看他们的定义OLTP(on-line transaction processing)翻译为联机事务处理, OLAP(On-Line Analytical Processing)翻译为联机分析处理,从字面上来看OLTP是做事务处理,OLAP是做分析处理。从对数据库操作来看,OLTP主要是对数据的增删改,OLAP是对数据的查询。再从应用上来看看OLTP与OLAP的区别OLTP主要用来记录某类业务事件的发生,如购买行为,当行为产生后,系统会记录是谁在何时何地做了何事,这样的一行(或多行)数据会以增删

2020-12-17 16:05:36 9549

原创 Sqoop通过条件实现数据的抽取

1. where条件部分导入HDFS我们可以导入表时使用Sqoop导入工具,"where"子句的一个子集。它执行在各自的数据库服务器相应的SQL查询,并将结果存储在HDFS的目标目录。sqoop import \--connect jdbc:mysql://192.168.52.150:3306/test \--username root --password 123456 --table emp_add \--target-dir /sqoop/emp_add -m 1 --delete-

2020-12-15 19:20:43 1221

原创 Hive函数

1.Hive函数Hive的函数分为三类: 聚合函数、内置函数,表生成函数1.1 内置函数1:数学函数2:字符串函数3:日期函数4:条件函数 1) if 函数 hive> select if(1=2,100,200) ; -- 三元 200 hive> select if(1=1,100,200) ; 100 2) 条件判断 case hive> select case when 1=2 then 'tom' when 2=2 then 'mary'

2020-12-13 11:46:23 318

原创 Hive查询语法

1.基本查询语法1. * 代表所有 select * from ....... 查询出了所有字段 2. distinct 去重查询 关键字在字段名字的前面 select distinct department from teacher; 3. between ... and ... 在什么之间 >.. and ... < 在什么...之间 4. in 表示或者关系 in(50,66,88) 查询规定中的多的值 5. o

2020-12-13 10:42:10 772 1

原创 Hive数据库以及表的操作

1.Hive的数据库操作1:创建数据库: create database if not exists myhive; if not exists 最好写,方便后面执行shell脚本.解释: 1:当我们在hive每创建一个数据库,则Hive会自动在HDFS上创建一个文件 夹:/user/hive/warehouse/myhive.db #数据库名字 说明:hive的表存放位置模式是由hive-site.xml当中的一个属性指定的(默认就在里面,配置里面看不到) <name>hi

2020-12-12 10:55:20 689

原创 Hadoop + ZooKpeer面试题目精讲

1. HDFS的体系结构整体来说他是一个主从架构,一旦主节点挂了,集群将无法工作. 其中包含4个部分: 1.Client 客户端:提供一些shell命令与NameNode进行文件的交互,以及对文件进行切割. 2.NameNode 主节点: 主要管理元数据信息,以及分配副本放在副本放在哪一个主机上. 3.SecondaryNameNode 辅助节点: 辅助NameNode管理元数据信息,以及合并edits日志. 4.DataNode 从节点: 储存具体数据的.2. HDFS的读写流程

2020-12-10 07:56:50 639

原创 Hive的安装

在安装Hive之前要确保集群安装好了MySQL,教程之前已经发表,这里不再解释了.1.Hive的安装方式hive的安装一共有三种方式:内嵌模式、本地模式、远程模式; 这里我安装的是远程模式.版本如下(其实都无所谓,根据自己情况而定):1.1解压Hive安装包并重命名cd /export/software ## 安装包上传的位置tar -zxvf apache-hive-2.1.0-bin.tar.gz -C /export/servercd /export/servermv apach

2020-12-08 18:54:08 151

原创 数据仓库以及Hive入门简介

1.数据仓库的介绍1.1 概念数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库顾名思义,是一个很大的数据存储集合,出于企业的分析性报告和决策支持目的而创建,对多样的业务数据进行筛选与整合。它为企业提供一定的BI(商业智能)能力,指导业务流程改进、监视时间、成本、质量以及控制。数据仓库的输入方是各种各样的数据源,最终的输出用于企业的数据分析、数据挖掘、数据报表等方向。1.2数据仓库的主要特征数据仓库是面向主题的(Subject-Oriented )、集成的(Int

2020-12-08 18:29:36 199

原创 分布式资源管理系统Yarn

1.Yarn的介绍1:Yarn是一个通用的资源调度平台2:Yarn可以为很多计算框架(MR,Spark,Storm)提供资源调度任务3:Yarn本身也是一个集群,是一个主从架构集群,主节点:ResourceManager,从节点:NodeManager2. Yarn架构Client 提交任务:hadoop jar /export/server/hadoop-2.7.5/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.5.jar pi 2

2020-12-08 18:01:01 260

原创 分布式计算系统MapReduce

1. 理解MapReduce的思想MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想,而不是自己原创。Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。Reduce负责“合”,即对map阶段的结果进行全局汇总。这两个阶段合起来正是MapReduce思想的体现。...

2020-12-07 22:51:28 223

原创 分布式文件管理系统HDFS

1.HDFS(Hadoop Distributed File System )分布式文件管理系统1.1.1 概述在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统 。​ HDFS(Hadoop Distributed File System)是 Apache Hadoop 项目的一个子项目. Hadoop 非常适于存储大型数据 (比如 TB 和 PB), 其就是使用 HDFS 作为存储系统. HDFS 使用多台计算机存储文件, 并且提供统

2020-12-04 20:33:22 698

原创 解决执行MapReduce代码是报如下错误: Job job_1607082280342_0001 failed with state FAILED due to: Task failed task_

我们再执行MapReduce代码时报了一个如下的错误: Job job_1607082280342_0001 failed with state FAILED due to: Task failed task_1607082280342_0001_r_000000 Job failed as tasks failed. failedMaps:0 failedReduces:1Job job_1607082280342_0001 failed with state FAILED due to: Task

2020-12-04 20:32:30 7418 5

原创 Hadoop分布式环境(高可用集群的搭建)

1.原理1.1 什么是高可用集群高可用集群就是当某一个节点或服务器发生故障时,另一个节点能够自动且立即向外提供服务,即将有故障节点上的资源转移到另一个节点上去,这样另一个节点有了资源既可以向外提供服务。高可用集群是用于单个节点发生故障时,能够自动将资源、服务进行切换,这样可以保证服务一直在线。在这个过程中,对于客户端来说是透明的。1.2 高可用集群的衡量标准高可用集群一般是通过系统的可靠性(reliability)和系统的可维护性(maintainability)来衡量的。通常用平均无故障时间(MT

2020-12-03 12:20:38 448

原创 HDFS的JavaAPI操作

1. HDFS的API操作HDFS在生产应用中主要是客户端的开发,其核心步骤是从HDFS提供的api中构造一个HDFS的访问客户端对象,然后通过该客户端对象操作(增删改查)HDFS上的文件。1.1 配置本地windows环境链接: https://pan.baidu.com/s/1O5iG3LhS_oTdatYScnV5OA提取码:ssbb搭建步骤:第一步:将已经编译好的Windows版本Hadoop解压到到一个没有中文没有空格的路径下面第二步:在windows上面配置hadoop的环境变量

2020-12-02 18:21:53 197

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除