自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 Flink求TopN

一、数据字段如下: 字段名 数据类型 说明 userId Long 加密后的用户ID itemId Long 加密后的商品ID categoryId Int ...

2019-11-08 20:49:04 2006

原创 Spark Streaming 读取Kafka数据

1.引入Maven依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.1.1</vers...

2019-10-11 17:02:24 255 1

原创 Spark从 Hbase 读写文件

由于 org.apache.hadoop.hbase.mapreduce.TableInputFormat 类的实现,Spark 可以通过Hadoop输入格式访问 HBase。这个输入格式会返回键值对数据,其中键的类型为org. apache.hadoop.hbase.io.ImmutableBytesWritable,而值的类型为org.apache.hadoop.hbase.client....

2019-10-08 20:41:28 194

原创 Spark从 Mysql 数据库读写文件

1.引入maven依赖<dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> &...

2019-10-08 18:40:23 179

原创 Shell中单引号和双引号区别

1、创建一个脚本[hadoop@hadoop104 fczheng]$ vim test.sh在文件中添加如下内容:#!/bin/bashdo_time=$1echo '$do_time'echo "$do_time"echo "'$do_time'"echo '"$do_time"'echo `date`2、执行结果[hadoop@hadoop104 fc...

2019-08-29 15:25:59 93

原创 Kafka启动后进程过一段时间自己消失,问题解决

我的Kafka有三个节点,启动kafka后进程过一段时间后会自己消失。解决问题思路如下:由于kafka依赖于zookeeper,启动后要去zookeeper中注册,启动kafka时:先启动zookeeper,保证zookeeper服务正常后,后再启动Kafka。关闭Kafka时:先关闭kafka,再关闭zookeeper。保证启动和停止无误后,如果kafka启动后,kafka进程...

2019-08-28 13:00:37 8109 3

原创 DataX3.0入门简介

一篇不错的介绍DataX的文章,转载自:https://blog.csdn.net/u014646662/article/details/82792725 ,感谢原作者。一. DataX3.0概览二、DataX3.0框架设计三. DataX3.0插件体系四、DataX3.0核心架构五、DataX 3.0六大核心优势对人工智能感兴趣的同学,可以点击以下链接:现在人工智能非...

2019-08-23 21:15:53 265

原创 Hadoop集群安全模式

基本语法:集群处于安全模式,不能执行重要操作(写操作)。集群启动完成后,自动退出安全模式。功能描述:查看安全模式状态hdfs dfsadmin -safemode get功能描述:进入安全模式状态hdfs dfsadmin -safemode enter功能描述:离开安全模式状态hdfs dfsadmin -safemode leave功能描述:等...

2019-08-23 20:34:34 443

原创 使用MapReduce将HBASE表中的数据导入到HDFS

目标:将HBase中student表中的数据,通过MR迁移到HDFS的hdfs://hadoop112:9000/user/hadoop/out1路径下。1. 添加Maven依赖 <dependencies> <dependency> <groupId>org.apache.hbase</groupId...

2019-08-16 21:32:06 1011

原创 使用MapReduce把HBase表中的数据迁移到另一张HBase表中

目标:将HBase中student表中的数据,通过MR迁入student_mr表中。1. 添加Maven依赖 <dependencies> <dependency> <groupId>org.apache.hbase</groupId> <artifactId>h...

2019-08-16 20:03:13 575

原创 Hbase Region下线故障修复

当发现HBASE的某张表无法正常访问,或scan时:发现故障后,检查hbase(以student表为例):[hadoop@hadoop112 ~]$ hbase hbck -details student结果重要部分如下:Summary:Table student is okay. Number of regions: 0 Deployed on: Tabl...

2019-08-16 12:36:56 1894 1

原创 Arrays.copyOf()与System.arraycopy()的区别

如果我们想拷贝一个数组,我们可能会使用Arrays.copyof()或者System.arraycopy()两种方式。在这里,我们将使用一个比较简单的示例来阐述两者之间的区别。一、首先System.arraycopy()首先观察先System.arraycopy(Object src, int srcPos, Object dest, int destPos, int length)的声明...

2019-08-15 11:16:33 504

原创 HBase架构简介

一、HBase架构HBase架构图如下: 从图中可以看出 Hbase 是由 Client、Zookeeper、Master、HRegionServer、HDFS 等几个组件组成,下面来介绍一下几个组件的相关功能:1 )ClientClient 包含了访问 Hbase 的接口,另外 Client 还维护了对应的 cache 来加速 Hbase 的访问,比如 ca...

2019-08-14 18:11:10 261

原创 Hive之--窗口函数

背景:平常我们使用 hive或者 mysql时,一般聚合函数用的比较多。但对于某些偏分析的需求,group by可能很费力,子查询很多,这个时候就需要使用窗口分析函数了~注:hive、oracle提供开窗函数,mysql8之前版本不提供,但Oracle发布的 MySQL 8.0版本支持窗口函数(over)和公用表表达式(with)这两个重要的功能!一、相关函数说明OVER():指定分...

2019-08-05 23:41:54 395

原创 Hive之--行转列collect和列转行explode

一、行专列1.相关函数说明concat(string A/col, string B/col…):返回输入字符串连接后的结果,支持任意个输入字符串; concat_ws(separator, str1, str2,...):它是一个特殊形式的 concat()。第一个参数剩余参数间的分隔符。分隔符可以是与剩余参数一样的字符串。如果分隔符是 NULL,返回值也将为 NULL。这个函数会跳过...

2019-08-05 19:17:10 873

原创 Hive集合数据类型

Hive有三种复杂数据类型ARRAY、MAP 和 STRUCT。ARRAY和MAP与Java中的Array和Map类似,而STRUCT与C语言中的Struct类似,它封装了一个命名字段集合,复杂数据类型允许任意层次的嵌套。 数据类型 描述 语法示例 STRUCT 和c语言中的struct类似,都可以通过...

2019-08-02 18:14:23 457

原创 Hadoop的HA集群搭建详细步骤

一、环境准备1. 修改IP2. 修改主机名及主机名和IP地址的映射3. 关闭防火墙4. ssh免密登录5. 安装JDK,配置环境变量等二、集群规划表2-1 hadoop集群规划 hadoop112 hadoop113 hadoop114 NameNode NameNode Journ...

2019-07-31 20:08:17 517

原创 HDFS的I/O流操作

采用IO流的方式实现数据的上传和下载。package com.fczheng.hdfs;import java.io.File;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException;import java.net.URI;import java.net....

2019-07-23 21:16:43 173

原创 Hadoop分布式集群搭建详细步骤

主机名和ip映射如下: 192.168.1.110 hadoop110 192.168.1.111 hadoop111 192.168.1.112 hadoop112一、Linux环境准备1、更改主机名(注:次操作分别在hadoop110,hadoop111,hadoop112上操作)[hadoop@hadoop110 ~]$ su root[root@hadoop...

2019-07-23 00:11:02 314

原创 Hadoop分布式集群搭建之--SSH无密登录配置

1、配置ssh实现hadoop100免秘钥登录hdoop101和hadoop102。2、免秘钥登录原理如下图所示:3、生成公钥和私钥:注:本操作hadoop用户已经创建,执行路径为/home/hadoop/.ssh[hadoop@hadoop100 .ssh]$ ssh-keygen -t rsa注:然后敲(三个回车),就会生成两个文件id_rsa(私钥)、id_rsa...

2019-07-22 20:47:46 416

原创 HDFS客户端的API操作

下面的代码对HDFS的客户端操作,即HDFS文件的上传,HDFS文件的下载,HDFS文件夹的删除,HDFS文件名的更改,HDFS文件详情的查看。代码如下:package com.fczheng.hdfs;import java.io.File;import java.io.IOException;import java.net.URI;import java.net.UR...

2019-07-22 20:03:04 211

原创 Hadooop分布式集群搭建之--ntp同步集群时间

时间同步方式:hadoop112作为时间服务器,hadoop113、hadoop114定时同步hadoop112的时间,每10分钟同步一次。配置时间同步具体实操:1、时间服务器配置(必须root用户)1、检查ntp是否安装[root@hadoop112 hadoop]# rpm -qa|grep ntpfontpackages-filesystem-1.41-1.1.el6.noarch...

2019-07-20 19:11:15 418

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除