自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(37)
  • 资源 (1)
  • 收藏
  • 关注

原创 CDH大数据平台搭建之HADOOP分布式集群搭建

CHD大数据平台搭建之HADOOP安装一、什么是HADOOP?二、如何下载1.官网下载2.网盘下载三、搭建集群1.准备5台虚拟机2.安装JDK3.安装ZOOKEEPER4.集群规划5.安装HADOOP6.修改配置文件1、进入配置文件目录:2、修改env文件3、修改core-site.xml文件4、修改hdfs-site.xml文件5、配置mapred-site.xml文件6、修改yarn-site.xml文件7、修改slaves文件8、分发文件9、配置环境变量四、启动集群1.启动ZOOKEEPER集群2.启

2021-06-09 17:38:08 4482

原创 Flume之基本使用

Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。

2023-06-16 14:53:45 519

原创 Sqoop之快速入门

Sqoop导入导出脚本

2023-06-12 12:13:00 325

原创 Flink之CDC

Flink CDC实时读取Mysql数据

2023-06-08 22:17:41 347

原创 Doris 1.1.5集群部署

Doris集群部署及扩缩容的讲解

2023-05-31 18:48:56 697

原创 Flink之容错机制

有状态流应用中的检查点(checkpoint),其实就是所有任务的状态在某个时间点的一个快照(一份拷贝)。简单来讲,就是一次“存盘”,让我们之前处理数据的进度不要丢掉。在一个流应用程序运行时,Flink 会定期保存检查点,在检查点中会记录每个算子的 id 和状态;如果发生故障,Flink 就会用最近一次成功保存的检查点来恢复应用的状态,重新启动处理流程,就如同“读档”一样。

2023-05-28 22:07:04 259 1

原创 Flink之状态编程

Flink中的状态编程

2023-05-24 14:55:39 628

原创 Flink之多流操作

Flink 多流操作

2023-05-23 18:26:25 299

原创 Hbase之优化篇

hbase 预分区、rowkey设计

2023-05-23 15:06:00 280

原创 Hbase之RM读写

将HBASE_CLASSPATH加入环境变量:export HBASE_CLASSPATH=`$HBASE_HOME/bin/hbase mapredcp`Hbase建表:create “stu”,“info”,“info1”需要准备hadoop、zookeeper以及hbase集群。并将准备的如下数据上传hdfs,数据按照\t拆分。hive-site.xml文件添加如下配置。数据:最前面准备的stu.txt。分析数据并插入结果表。

2023-05-22 22:50:12 416

原创 Hbase之基础知识

Hbase基础知识

2023-05-20 00:34:54 406

原创 Flink之处理函数

Flink 处理函数基本使用及topN案例

2023-05-18 23:15:52 271

原创 Flink之Windows

Flink Windows相关代码实现

2023-05-17 22:02:48 491

原创 Flink之Watermark

处理时间(Processing Time)处理时间的概念非常简单,就是指执行处理操作的机器的系统时间。事件时间(Event Time)事件时间,是指每个事件在对应的设备上发生的时间,也就是数据生成的时间。

2023-05-16 16:26:55 253

原创 Flink 之输出算子Sink

Flink 将数据写入外部系统

2023-05-16 14:27:03 424

原创 Flink之自定义Source

Flink 自定义Source

2023-05-15 13:15:08 930

原创 Flink之提交任务

s(–slots): 每个 TaskManager 的 slot 数量,默认一个 slot 一个 core,默认每个。taskmanager 的 slot 的个数为 1,有时可以多一些 taskmanager,做冗余。-nm:yarn 的 appName(现在 yarn 的 ui 上的名字)。进入flink Web页面:http://hostname:8081/-tm:每个 taskmanager 的内存(单位 MB)。由于并行度设置的是2,3台机器只有2台是有数据的,如下图。查看集群上运行的job。

2023-05-14 17:50:29 1948

原创 Flink之wordCount

Flink 实现worCount,批处理和流处理,java和scala二个版本

2023-05-13 20:21:00 224

原创 idea之Maven项目支持scala

2、File => settings => Plugins => 六角配置按钮 => intall from Disk => 选择刚刚下载的scala插件 => 重启。步骤:File => settings => Plugins => marketplace搜索scala安装。

2023-05-13 19:14:41 2105

原创 MR之ReduceJoin

MR之ReduceJoin前言一、实现思路二、具体代码1.OrderBean类2.ReduceJoinMapper类3.ReduceJoinReduce类4.RecudeJoinDriver类前言前一篇文章将了下MapJoin,其实ReduceJoin和MapJoin类似,只不过一个是在Map端匹配,一个是在Reduce端匹配,各有各的优势。一、实现思路和MapJoin类似,也是通过读取二个文件,文件的大小可以很大,通过FileInputFormat读取文件,读取到文件后需要获取文件的名称,通过文

2021-07-14 11:17:30 308

原创 MR之MapJoin

MR之MapJoin前言一、实现思路二、具体代码1.MapJoinOrderBean类2.MapJoinMapper类3.MapJoinReduce类4.MapJoinDriver类三、运行注意点四、个人运行结果总结前言有一个商品文件和一个订单文件,其中订单文件记录了商品文件的编号,而商品文件中有商品的中文名称。需求:需要输出一个订单文件,字段为:商品名称、商品总量、总金额。一、实现思路我们需要读取商品文件形成一个Map集合,再通过订单文件中的商品id,在Map集合中找到商品名称,再实现对应的

2021-07-12 12:00:11 401

原创 MR之自定义分区

MR之自定义分区前言一、如何自定义分区?二、业务需求二、自定义分区1.CusPartition类2.CusParMapper类3.CusParReduce类四、注意点前言对于MR而言,数据输出的时候是HashPartitioner分区器来进行数据的分区输出,对于这类的分区器,在某些业务情况下不满足要求,这个时候就需要自定义分区器来满足需求。一、如何自定义分区?需求自定义分区,则需要定义一个class类,需要继承Partitioner类,重写getPartition放法,再getPartitio

2021-06-28 19:36:20 488

原创 MR之词频统计

MR之词频统计前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言本文将的是大数据入门程序词频统计,简单的代码编程,通俗易懂。一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport

2021-06-21 14:32:18 569

原创 WIN10下安装HADOOP

WIN10下安装HADOOP前言一、软件下载二、安装JDK三、安装hadoop总结前言在window上面安装hadoop,方便本地环境运行Mapreduce程序,方便调试,跟踪运行流程,更好的掌握MR的运行流程。一、软件下载网盘下载 提取码:lqzq二、安装JDK1、下载好软件,选好安装目录,一路下一步即可2、配置好环境变量,如下图3、验证安装win + r 再输入cmd进入window命令行输入java -version 三、安装hadoop1、将网盘下载的hadoop-2

2021-06-16 17:02:25 749 2

原创 CDH大数据平台搭建之HBASE集群搭建

CHD大数据平台搭建之HBASE集群搭建一、集群规划二、下载三、安装及配置四、启动五、jps验证一、集群规划参考CHD大数据平台搭建之集群规划二、下载1.官网下载2.网盘下载 提取码:cdh5网盘是chd配套版本,官网的事apache版本三、安装及配置1、解压tar -zxvf hbase-1.2.0-cdh5.7.6.tar.gz -C /opt/modules/2、新建文件夹mkdir -p /opt/modules/hbase-1.2.0-cdh5.7.6/datas3

2021-06-16 12:29:46 1108

原创 CDH大数据平台搭建之SPARK集群搭建

CHD大数据平台搭建之SPARK集群搭建一、安装规划二、下载1.引入库2.读入数据三、安装及配置总结一、安装规划示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、下载1.引入库2.读入数据三、安装及配置总结提示:这里对文章进行总结:例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。...

2021-06-16 10:15:23 1280

原创 CDH大数据平台搭建之KAFKA集群搭建

CHD大数据平台搭建之KAFKA安装一、安装规划二、下载KAFKA三、安装及配置1、先安装zookeeper2、解压3、新建文件夹4、修改config目录server.properties文件5、配置环境变量6、分发文件四、启动1、启动命令2、验证总结一、安装规划请参考CHD大数据平台搭建之集群规划二、下载KAFKA1.官网下载2.网盘下载 提取码:cdh5注意事项:网盘的是配套的scala和kafka,自行下载注意版本要匹配三、安装及配置1、先安装zookeeper请参考CHD大数据

2021-06-15 14:53:05 1179 1

原创 CDH大数据平台搭建之SCALA安装

CHD大数据平台搭建之SCALA安装一、下载二、安装及配置1.解压2.配置环境变量三、验证一、下载1、官网下载2、网盘下载 提取码:cdh5二、安装及配置1.解压tar -zxvf scala-2.11.8.tgz -C /opt/modules/2.配置环境变量1、编辑配置文件vi /etc/profile2、添加如下内容# SCALA_HOMEexport SCALA_HOME=/opt/modules/scala-2.11.8export PATH=$PATH:$SCA

2021-06-11 16:14:10 306 1

原创 CDH大数据平台搭建之FLUME安装

CHD大数据平台搭建之FLUME安装一、下载二、安装及配置1.解压2.重命名文件夹3.修改配置文件一、下载1、官网下载2、网盘下载 提取码:cdh5备注:官网下载的是apache版本,网盘的是cdh5.7.6的版本二、安装及配置1.解压tar -zxvf flume-ng-1.6.0-cdh5.7.6.tar.gz -C /opt/modules/2.重命名文件夹mv apache-flume-1.6.0-cdh5.7.6-bin flume-1.6.0-cdh5.7.63.修改配

2021-06-11 15:21:29 605

原创 CDH大数据平台搭建之HIVE安装

CHD大数据平台搭建之HIVE安装前言一、下载二、安装1.解压2.配置3.启动4.注意前言一、下载1、官网下载2、网盘下载 提取码:cdh5备注:官网下载的是apache版本,网盘的是cdh5.7.6的版本二、安装1.解压tar -zxvf hive-1.1.0-cdh5.7.6.tar.gz -C /opt/modules/2.配置1、进入配置文件夹:cd /opt/modules/hive-1.1.0-cdh5.7.6/conf2、重命名文件mv hive-env.sh.

2021-06-10 16:11:29 1267

原创 CDH大数据平台搭建之MYSQL安装

CHD大数据平台搭建之MYSQL安装一、MYSQL安装1.检查是否安装mysql2.基于yum安装2.基于rpm包安装1、下载rpm包2、安装3.mysql服务命令4.开机自启5.查看初始密码6.登录mysql7.修改密码8.删除其他登录9.授权所有机器登录10.刷新权限一、MYSQL安装1.检查是否安装mysql rpm -qa | grep mysql2.基于yum安装1.检查当前环境是否已安装MySQLrpm -qa | grep mysql2.安装MySQLyum instal

2021-06-10 11:46:14 399

原创 CDH大数据平台搭建之xsync分发脚本

CHD大数据平台搭建之xsync分发脚本前言一、安装rsync二、编写xsync脚本1.新建bin文件夹2.新建xsync文件3.编辑文件4.授权5.使用6.注意前言脚本是出自尚硅谷老师们编写的,在这里分享给大家,有需要的拿去,再次感谢尚硅谷老师们。一、安装rsyncsudo yum install -y rsync二、编写xsync脚本1.新建bin文件夹在用户家目录下新建bin目录:mkdir -p /home/hpsk/bin2.新建xsync文件touch /home/hps

2021-06-08 17:26:51 515

原创 CDH大数据平台搭建之ZOOKEEPER集群搭建

CHD大数据平台搭建之ZOOKEEPER安装前言一、什么是ZOOKEEPER?二、如何下载1.官网下载(已收费)2.网盘下载三.安装Zookeeper1.安装Java2.安装Zookeeper3.添加环境变量4.分发到其他机器5.修改其他机器的myid内容四、启动Zookeeper五、验证启动总结前言本次主要是针对Zookeeper的安装及启动,安装Zookeeper需要先安装Java,需要Javaan安装教程的小伙伴可以参考CHD大数据平台搭建之JDK安装。一、什么是ZOOKEEPER?Zook

2021-06-07 18:30:23 1333

原创 CDH大数据平台搭建之JDK安装

CHD大数据平台搭建之JDK安装一、安装JDK1、下载JDK2、安装JDK3、检查是否安装成功一、安装JDK1、下载JDK1、JDK8官网下载2、提供百度网盘供大家下载,提取码:cdh52、安装JDK1、下载好jdk-8u91-linux-x64.tar.gz包后,上传至服务器上2、安装,安装目录自己定义,比如我的就是:/opt/modulestar -zxvf jdk-8u91-linux-x64.tar.gz -C /opt/modules3、配置环境变量1、执行编辑命令:sudo

2021-06-04 16:25:41 899

原创 CDH大数据平台搭建之集群规划

CHD大数据平台搭建之集群规划前言一、集群规模二、集群规划总结前言话说无规矩不成方圆,搭建CDH大数据平台之前需要的工作很多,首先,你需要计算公司每日的数据量,来确定需要多少服务器,确定好服务器之后,需要规划集群节点的分配。由于是个人搭建,不存在数据量计算,只做集群规划即可。一、集群规模每日数据量的多少,决定了服务器的数量计算规则如下:1、hdfs数据保存3份2、一般文件保存3年3、每台服务器硬盘大小8T,但会留20%左右的空闲空间所需服务器数量 = 公司每日数据量(TB) * 3 * 3

2021-06-04 15:43:46 1758

原创 CDH大数据平台搭建之虚拟环境配置

CHD大数据平台搭建之虚拟环境配置前言一、虚拟机网络配置二、虚拟机主机名配置三、SSH免秘钥登录1.引入库2.读入数据总结前言搭建大数据平台需要配置好虚拟网络环境,其中包括通外网、主机名、ssh面密钥登陆、ntp时间同步等。一、虚拟机网络配置二、虚拟机主机名配置三、SSH免秘钥登录1.引入库代码如下(示例):import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sn

2021-06-03 13:50:56 1728

原创 CDH大数据平台搭建之VMware及虚拟机安装

CHD大数据平台搭建-VMware及虚拟机安装前言一、下载所需框架二、安装(略)三、安装虚拟机1、新建虚拟机(按照操作即可)总结前言搭建大数据平台需要服务器,这里通过VMware +CentOS镜像进行模拟,供新手学习必备。一、下载所需框架VMware 和CentOS可以通过官网下载,这里我提供大家也会提供所需软件,请到百度网盘自行下载,提取码:cdh5二、安装(略)VMware安装就不演示了,简单的windows软件安装,相信大佬都会。三、安装虚拟机1、新建虚拟机(按照操作即可)1、

2021-06-02 15:27:05 1447

HADOOP系列框架集合

cdh5.7.6成套框架,文件为百度网盘地址及密码,文件太大,HADOOP系列框架总大小太大,无法一次性上传

2021-05-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除