自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 资源 (2)
  • 收藏
  • 关注

原创 Hadoop集群升级(3.1.3 -> 3.2.4)

Hadoop集群版本升级

2023-11-25 17:09:15 646

原创 在dss中运行scala任务报java.lang.NullPointerException: null

在dss中运行scala任务报java.lang.NullPointerException: null

2023-03-19 01:01:54 213

原创 hive 数据导入和导出

hive数据导入与导出,Sqoop数据导入与导出

2022-08-16 09:23:15 343

原创 shell实现日期加减

shell实现日期加减

2022-06-30 11:06:34 4811

原创 Hive多字段数值比较大小

Hive多字段数值比较大小、COALESCE函数(返回第一个非空值)、least函数(返回最小值)、greatest函数(返回最大值)

2022-06-30 10:37:16 4050

原创 hive日期函数

日期函数

2022-06-30 10:33:19 709

原创 Mysql row_number() | rank() 实现

Mysql row_number() | rank() 实现

2022-06-30 10:29:20 329

原创 Hive处理Json相关数据

get_json_object 函数此函数为常用函数,可以取出json数据中的相应的字段的数值-- get_json_object(json,'$.name') as nameselect get_json_object('{"name":"zj","age":25}','$.name') as name ,get_json_object('{"name":"zj","age":25}','$.age') as age;select get_json_object('{"name":"zj","a

2022-04-12 11:25:40 1296

原创 Hive 表字段数据修改

hive字段信息修改修改表注释ALTER TABLE table1 SET TBLPROPERTIES('comment' = '每日背书企业成交明细(去重)');增加字段alter table table1 add columns(bonus varchar(255) comment '奖金');alter table table1 add columns(bonus varchar(255) comment '奖金') cascade; -- 适用于分区表联级机制cascadeca

2022-04-12 11:15:37 9422

原创 Hive 行转列、列转行

hive 行列之间数据相互转换

2021-12-21 10:21:28 705

原创 DataX将HDFS数据迁移到Mysql中NULL值的处理

DataX将HDFS数据迁移到Mysql中NULL值的处理

2021-12-18 17:06:17 3935

原创 Spark | HDFS 本地调式时出现:Failed to connect to /192.168.0.53:9866 for block, add to deadNodes and continu

出现原因21/11/16 15:13:17 WARN BlockReaderFactory: I/O error constructing remote block reader.java.net.ConnectException: Connection timed out: no further information......Failed to connect to /192.168.0.53:9866 for block, add to deadNodes and continue. ja

2021-11-16 15:24:25 2996 2

原创 Hive UDF GDF UDTF编写与实现

hive 自定义函数实现UDF | GDF | UDTF 区别UDF:一进一出(hive3 已经废除)GDF:一进一出(hive3 支持的GDF)UDTF:一进多出业务前景测试数据为:字符串(JSON数组格式 [{},{},{}] )[{\"title\": \"转让背书\", \"endorseName\": \"山东泰山钢铁集团有限公司\", \"endorseeName\": \"山东汶汇港物流有限公司\", \"isTransfer\": \"可以转让\", \"endorseDa

2021-11-11 11:09:13 2132

原创 centos6 的 hadoop三台集群的搭建

三台的hadoop分布式集群的搭建:如果你要部署一个高可用的完全分布式集群请参照:我的博客:Hadoop完全分布式集群搭建过程(HA高可用)https://blog.csdn.net/hello_heheha/article/details/998883301,修改主机名分别为:master slave1 slave22,配置/ etc / hosts(三台都要修改)...

2021-11-11 10:00:11 482

原创 大数据面试题汇总

大数据面试题-20200607简答题+面试题HashMap和HashTable的区别Scla中的Case class作用数据仓库分层概念数据分层概念数据分层为倒三角,从上到下依次为ODS层(原始数据层)、DWD层(明细数据层)、DWS层(服务数据层)、ADS层(数据应用层),数据量是从多到少,从复杂化到简单化。ODS层:原始数据层、存放原始数据,直接加载原始日志信息,数据, 数据保持原貌不做处理DWD层(DWI层):结构和粒度与原始数据保持一致,对ODS层数据进行数据清洗(去空值、脏数据、

2020-09-22 13:12:06 562

原创 Elasticsearch学习笔记

ES简介Elasticsearch:全文检索引擎,快速存储,检索、和分析海量数据底层是由Lucene支持Lucene开放的源代码的全文检索引擎工具包,不是完整的全文检索引擎,而是一个全文检索的引擎架构,特点:完整的查询完整的索引部分具有文本分析Lucene提供了一个简单缺强大的应用程序接口ES基本概念P:Primary shard 主分片R:Reaplication shard 备用分片一个cluster存在一或者多个node组成,每个集群都有一个cluster.n

2020-09-22 10:20:00 195

原创 join和union的区别

join和union的区别union和join是需要联合多张表时常见的关联词,join:两张表做交连后里面条件相同的部分记录产生一个记录集,union:union是产生的两个记录集(字段要一样的)并在一起,成为一个新的记录集 。join的连接方式(left join\left outer join) \ right join \right outer join \inner join......

2020-03-27 18:02:15 12831

原创 Spark的ReduceByKey和GroupByKey的区别

Spark的ReduceByKey和GroupByKey的区别ReduceByKey和GroupByKey其实和Hadoop的MapReduce中的是否带有combinner一样的道理,无论是ReduceBuKey还是GroupByKey返回的结果都是RDD。ReduceByKey:说白了就是带有Commbiner的操作,也就是说ReduceBykey会减少Map端的输出,在Map端输出的时候...

2020-01-31 16:24:19 279

原创 Maven设置指定jar包依赖版本信息

我们在配置Spark core 的 maven依赖的时候jackson-module-scala_2.11的版本冲突,解决办法如下:<dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</ar...

2019-12-12 16:44:07 8700

原创 Cannot open channel to 2 at election address zj03/192.168.8.132:3888

问题描述我的问题是,在我配置的三台集群中就一台启动不起来,但是原来我的是三台都启动成功,最近就是这一台启动不起来,查看日志信息就是包这个错误。2019-08-24 20:02:13,041 [myid:0] - WARN [WorkerSender[myid=0]:QuorumCnxManager@584] - Cannot open channel to 1 at election add...

2019-08-24 21:48:16 2534 2

原创 Hadoop完全分布式集群搭建过程(HA高可用)

使用Centos7来进行完全分布式的集群搭建,一般我们用伪分布式的集群就可以了,不需要配置完全分布式的集群和我们搭建伪分布式集群一样,我们首先要现在好安装包,以及我们需要配置配置JDK,SSH免秘钥登陆,以及Zookeeper分布式的搭建等,下面就开始我们的搭建过程一、配置Linux虚拟机1.配置主机名以及主机映射我们配置集群环境的时候,设置固定的主机名和主机映射能够方便的让我我们使用修...

2019-08-21 21:45:24 927

原创 Cento7安装mysql以及mysql中文编码的问题解决方案

Centos7默认的是 Mariadb而不是mysql,这里依旧以mysql为例进行展示,亲测非常有效。安装mysql1、查看系统自带的mysql版本信息rpm -qa | grep mysql一般情况是没有任何返回值的,如果有返回值这证明原来已经安装过mysql,如果安装过则需要我们用以下语句进行卸载掉rpm -e XXX.rpm或者强制删除rpm -e --nodeps......

2019-08-20 21:25:23 370

原创 使用maven打jar包的pom配置

使用maven打jar包的pom配置在pom.xml文件中添加如下配置,就可以在用maven打jar包的时候可以将相对应的jar可以直接打进去<build> <plugins> <plugin> <artifactId>maven-assembly-plugin</ar...

2019-07-24 20:48:38 760

转载 Hadoop面试题

Hadoop面试题转载:http://www.aboutyun.com/thread-6787-1-1.html转载:https://blog.csdn.net/sdksdk0/article/details/516953411. 下面哪个程序负责 HDFS 数据存储。a)NameNodeb)Jobtrackerc)Datanode d)secondaryNameNod...

2019-06-10 14:58:43 474

原创 windows下使用Idea来运行MR

#Windows下使用idea来运行MR##我们要先在本地配置Hadoop运行环境,我的是hadoop2.7.5先解压按装包,然后配置hadoop环境变量##下载hadoop.dall和winutils.exe两个文件,我在这里面下载的是hadoop2.7.1网址:https://github.com/LUK-qianliu/winutils-master将下载好的这两个文件放到hado...

2019-04-05 16:33:26 1102

原创 IDEA打开一个web项目的时候开启tomca出现404错误

#IDEA打开一个web项目的时候开启tomca出现404错误当我们导入一个web项目的时候,我么把dk,maven,tomcat等一切配置好以后,开启tomcat的时候,会出现404错误,按理说我们应该访问web目录下的index.jsp文件,这是因为我们的web路径出现的丢失导致的,此时我们可以尝试一下方法:打开File -> Project查看Modules中web项目中是否出现...

2019-03-25 20:07:08 322

原创 java.lang.IllegalArgumentException: No converter found for return value of type

遇见 java.lang.IllegalArgumentException: No converter found for return value of type: class java.util.ArrayList 解决办法如果我们碰见这个问题一般是我们在配置pom文件的时候,缺包所导致的主要原因是:这是因为springmvc默认是没有对象转换成json的转换器的,需要手动添加jackso...

2019-03-23 15:45:36 476

原创 Error: E0501 : E0501: Could not perform authorization operation, User: root is not allowed to impers

修改hadoop的配置文件core-site.xml    &lt;property&gt;        &lt;name&gt;hadoop.proxyuser.root.hosts&lt;/name&gt;        &lt;value&gt;*&lt;/value&gt;    &lt;/property&gt;    &lt;property&gt;        &

2019-01-16 10:44:52 1348

原创 centos6、ubuntu中mysql的安装

centos:mysql: 安装 此文档只支持Centos6的mysql安装,Centyo7安装mysql可以参照我的另外一篇进行安装配置 连接为:https://blog.csdn.net/hello_heheha/article/details/99880723 使用yum安装mysql #>yum install mys...

2018-12-09 18:54:17 176

原创 Hbase集群搭建

Hbase安装:1.上传hbase安装包到虚拟机中2.解压hbase压缩包3.配置hbase集群,要修改3个文件(首先zk集群已经安装好了)       注意:要把hadoop的hdfs-site.xml和core-site.xml 放到hbase/conf下       3.1修改hbase-env.sh       export JAVA_HOME=/usr/java/...

2018-12-09 18:50:02 94

原创 MapReduce需要的maven pom设置

<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.3.1</version> </depen...

2018-12-07 10:08:08 933

DataX数据的迁移(MySQL、HDFS,Hive)

1.将Mysql中的数据迁移到Hdfs文件系统中,然后通过Hive加载HDFS文件系统中的数据值 2.将Hive中的数据迁移到指定Mysql数据库中 注意点: 1.数据迁移的过程中,由于hive的Null值存储为"\N",Mysql存储为NULL值,二者转换时需要注意,再数据迁移json模板中,"nullFormat": "\\N", 该配置信息就是解决了数据迁移是存在的Null值。 2.如果hive中没有数值DataX迁移时会出现异常 执行语句:python /opt/module/datax/bin/datax.py /opt/module/datax/job/xxx.json

2022-04-12

MAC地址修改器.zip

在我们使用TeamViewer的时候,连接一定次数后会报检测出商业用途,我们可以根据MAC地址修改器来修改主机的MAC地址

2019-05-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除