码上_成功-CSDN博客

原创 CDH大数据平台搭建之HADOOP分布式集群搭建

CHD大数据平台搭建之HADOOP安装一、什么是HADOOP?二、如何下载1.官网下载2.网盘下载三、搭建集群1.准备5台虚拟机2.安装JDK3.安装ZOOKEEPER4.集群规划5.安装HADOOP6.修改配置文件1、进入配置文件目录：2、修改env文件3、修改core-site.xml文件4、修改hdfs-site.xml文件5、配置mapred-site.xml文件6、修改yarn-site.xml文件7、修改slaves文件8、分发文件9、配置环境变量四、启动集群1.启动ZOOKEEPER集群2.启

2021-06-09 17:38:08 4490

原创 Flume之基本使用

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。

2023-06-16 14:53:45 522

原创 Sqoop之快速入门

Sqoop导入导出脚本

2023-06-12 12:13:00 326

原创 Flink之CDC

Flink CDC实时读取Mysql数据

2023-06-08 22:17:41 349

原创 Doris 1.1.5集群部署

Doris集群部署及扩缩容的讲解

2023-05-31 18:48:56 700

原创 Flink之容错机制

有状态流应用中的检查点（checkpoint），其实就是所有任务的状态在某个时间点的一个快照（一份拷贝）。简单来讲，就是一次“存盘”，让我们之前处理数据的进度不要丢掉。在一个流应用程序运行时，Flink 会定期保存检查点，在检查点中会记录每个算子的 id 和状态；如果发生故障，Flink 就会用最近一次成功保存的检查点来恢复应用的状态，重新启动处理流程，就如同“读档”一样。

2023-05-28 22:07:04 261 1

原创 Flink之状态编程

Flink中的状态编程

2023-05-24 14:55:39 629

原创 Flink之多流操作

Flink 多流操作

2023-05-23 18:26:25 301

原创 Hbase之优化篇

hbase 预分区、rowkey设计

2023-05-23 15:06:00 282

原创 Hbase之RM读写

将HBASE_CLASSPATH加入环境变量：export HBASE_CLASSPATH=`$HBASE_HOME/bin/hbase mapredcp`Hbase建表：create “stu”,“info”,“info1”需要准备hadoop、zookeeper以及hbase集群。并将准备的如下数据上传hdfs，数据按照\t拆分。hive-site.xml文件添加如下配置。数据：最前面准备的stu.txt。分析数据并插入结果表。

2023-05-22 22:50:12 417

原创 Hbase之基础知识

Hbase基础知识

2023-05-20 00:34:54 407

原创 Flink之处理函数

Flink 处理函数基本使用及topN案例

2023-05-18 23:15:52 272

原创 Flink之Windows

Flink Windows相关代码实现

2023-05-17 22:02:48 493

原创 Flink之Watermark

处理时间（Processing Time）处理时间的概念非常简单，就是指执行处理操作的机器的系统时间。事件时间（Event Time）事件时间，是指每个事件在对应的设备上发生的时间，也就是数据生成的时间。

2023-05-16 16:26:55 256

原创 Flink 之输出算子Sink

Flink 将数据写入外部系统

2023-05-16 14:27:03 425

原创 Flink之自定义Source

Flink 自定义Source

2023-05-15 13:15:08 934

原创 Flink之提交任务

s(–slots)：每个 TaskManager 的 slot 数量，默认一个 slot 一个 core，默认每个。taskmanager 的 slot 的个数为 1，有时可以多一些 taskmanager，做冗余。-nm：yarn 的 appName(现在 yarn 的 ui 上的名字)。进入flink Web页面：http://hostname:8081/-tm：每个 taskmanager 的内存（单位 MB)。由于并行度设置的是2，3台机器只有2台是有数据的，如下图。查看集群上运行的job。

2023-05-14 17:50:29 1951

原创 Flink之wordCount

Flink 实现worCount，批处理和流处理，java和scala二个版本

2023-05-13 20:21:00 225

原创 idea之Maven项目支持scala

2、File => settings => Plugins => 六角配置按钮 => intall from Disk => 选择刚刚下载的scala插件 => 重启。步骤：File => settings => Plugins => marketplace搜索scala安装。

2023-05-13 19:14:41 2107

原创 MR之ReduceJoin

MR之ReduceJoin前言一、实现思路二、具体代码1.OrderBean类2.ReduceJoinMapper类3.ReduceJoinReduce类4.RecudeJoinDriver类前言前一篇文章将了下MapJoin，其实ReduceJoin和MapJoin类似，只不过一个是在Map端匹配，一个是在Reduce端匹配，各有各的优势。一、实现思路和MapJoin类似，也是通过读取二个文件，文件的大小可以很大，通过FileInputFormat读取文件，读取到文件后需要获取文件的名称，通过文

2021-07-14 11:17:30 309

原创 MR之MapJoin

MR之MapJoin前言一、实现思路二、具体代码1.MapJoinOrderBean类2.MapJoinMapper类3.MapJoinReduce类4.MapJoinDriver类三、运行注意点四、个人运行结果总结前言有一个商品文件和一个订单文件，其中订单文件记录了商品文件的编号，而商品文件中有商品的中文名称。需求：需要输出一个订单文件，字段为：商品名称、商品总量、总金额。一、实现思路我们需要读取商品文件形成一个Map集合，再通过订单文件中的商品id，在Map集合中找到商品名称，再实现对应的

2021-07-12 12:00:11 402

原创 MR之自定义分区

MR之自定义分区前言一、如何自定义分区？二、业务需求二、自定义分区1.CusPartition类2.CusParMapper类3.CusParReduce类四、注意点前言对于MR而言，数据输出的时候是HashPartitioner分区器来进行数据的分区输出，对于这类的分区器，在某些业务情况下不满足要求，这个时候就需要自定义分区器来满足需求。一、如何自定义分区？需求自定义分区，则需要定义一个class类，需要继承Partitioner类，重写getPartition放法，再getPartitio

2021-06-28 19:36:20 491

原创 MR之词频统计

MR之词频统计前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言本文将的是大数据入门程序词频统计，简单的代码编程，通俗易懂。一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下（示例）：import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport

2021-06-21 14:32:18 569

原创 WIN10下安装HADOOP

WIN10下安装HADOOP前言一、软件下载二、安装JDK三、安装hadoop总结前言在window上面安装hadoop，方便本地环境运行Mapreduce程序，方便调试，跟踪运行流程，更好的掌握MR的运行流程。一、软件下载网盘下载提取码：lqzq二、安装JDK1、下载好软件，选好安装目录，一路下一步即可2、配置好环境变量，如下图3、验证安装win + r 再输入cmd进入window命令行输入java -version 三、安装hadoop1、将网盘下载的hadoop-2

2021-06-16 17:02:25 751 2

原创 CDH大数据平台搭建之HBASE集群搭建

CHD大数据平台搭建之HBASE集群搭建一、集群规划二、下载三、安装及配置四、启动五、jps验证一、集群规划参考CHD大数据平台搭建之集群规划二、下载1.官网下载2.网盘下载提取码：cdh5网盘是chd配套版本，官网的事apache版本三、安装及配置1、解压tar -zxvf hbase-1.2.0-cdh5.7.6.tar.gz -C /opt/modules/2、新建文件夹mkdir -p /opt/modules/hbase-1.2.0-cdh5.7.6/datas3

2021-06-16 12:29:46 1109

原创 CDH大数据平台搭建之SPARK集群搭建

CHD大数据平台搭建之SPARK集群搭建一、安装规划二、下载1.引入库2.读入数据三、安装及配置总结一、安装规划示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、下载1.引入库2.读入数据三、安装及配置总结提示：这里对文章进行总结：例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。...

2021-06-16 10:15:23 1283

原创 CDH大数据平台搭建之KAFKA集群搭建

CHD大数据平台搭建之KAFKA安装一、安装规划二、下载KAFKA三、安装及配置1、先安装zookeeper2、解压3、新建文件夹4、修改config目录server.properties文件5、配置环境变量6、分发文件四、启动1、启动命令2、验证总结一、安装规划请参考CHD大数据平台搭建之集群规划二、下载KAFKA1.官网下载2.网盘下载提取码：cdh5注意事项：网盘的是配套的scala和kafka，自行下载注意版本要匹配三、安装及配置1、先安装zookeeper请参考CHD大数据

2021-06-15 14:53:05 1185 1

原创 CDH大数据平台搭建之SCALA安装

CHD大数据平台搭建之SCALA安装一、下载二、安装及配置1.解压2.配置环境变量三、验证一、下载1、官网下载2、网盘下载提取码：cdh5二、安装及配置1.解压tar -zxvf scala-2.11.8.tgz -C /opt/modules/2.配置环境变量1、编辑配置文件vi /etc/profile2、添加如下内容# SCALA_HOMEexport SCALA_HOME=/opt/modules/scala-2.11.8export PATH=$PATH:$SCA

2021-06-11 16:14:10 306 1

原创 CDH大数据平台搭建之FLUME安装

CHD大数据平台搭建之FLUME安装一、下载二、安装及配置1.解压2.重命名文件夹3.修改配置文件一、下载1、官网下载2、网盘下载提取码：cdh5备注：官网下载的是apache版本，网盘的是cdh5.7.6的版本二、安装及配置1.解压tar -zxvf flume-ng-1.6.0-cdh5.7.6.tar.gz -C /opt/modules/2.重命名文件夹mv apache-flume-1.6.0-cdh5.7.6-bin flume-1.6.0-cdh5.7.63.修改配

2021-06-11 15:21:29 605

原创 CDH大数据平台搭建之HIVE安装

CHD大数据平台搭建之HIVE安装前言一、下载二、安装1.解压2.配置3.启动4.注意前言一、下载1、官网下载2、网盘下载提取码：cdh5备注：官网下载的是apache版本，网盘的是cdh5.7.6的版本二、安装1.解压tar -zxvf hive-1.1.0-cdh5.7.6.tar.gz -C /opt/modules/2.配置1、进入配置文件夹：cd /opt/modules/hive-1.1.0-cdh5.7.6/conf2、重命名文件mv hive-env.sh.

2021-06-10 16:11:29 1271

原创 CDH大数据平台搭建之MYSQL安装

CHD大数据平台搭建之MYSQL安装一、MYSQL安装1.检查是否安装mysql2.基于yum安装2.基于rpm包安装1、下载rpm包2、安装3.mysql服务命令4.开机自启5.查看初始密码6.登录mysql7.修改密码8.删除其他登录9.授权所有机器登录10.刷新权限一、MYSQL安装1.检查是否安装mysql rpm -qa | grep mysql2.基于yum安装1.检查当前环境是否已安装MySQLrpm -qa | grep mysql2.安装MySQLyum instal

2021-06-10 11:46:14 401

原创 CDH大数据平台搭建之xsync分发脚本

CHD大数据平台搭建之xsync分发脚本前言一、安装rsync二、编写xsync脚本1.新建bin文件夹2.新建xsync文件3.编辑文件4.授权5.使用6.注意前言脚本是出自尚硅谷老师们编写的，在这里分享给大家，有需要的拿去，再次感谢尚硅谷老师们。一、安装rsyncsudo yum install -y rsync二、编写xsync脚本1.新建bin文件夹在用户家目录下新建bin目录：mkdir -p /home/hpsk/bin2.新建xsync文件touch /home/hps

2021-06-08 17:26:51 516

原创 CDH大数据平台搭建之ZOOKEEPER集群搭建

CHD大数据平台搭建之ZOOKEEPER安装前言一、什么是ZOOKEEPER?二、如何下载1.官网下载(已收费)2.网盘下载三.安装Zookeeper1.安装Java2.安装Zookeeper3.添加环境变量4.分发到其他机器5.修改其他机器的myid内容四、启动Zookeeper五、验证启动总结前言本次主要是针对Zookeeper的安装及启动，安装Zookeeper需要先安装Java，需要Javaan安装教程的小伙伴可以参考CHD大数据平台搭建之JDK安装。一、什么是ZOOKEEPER?Zook

2021-06-07 18:30:23 1334

qq_41924766的博客