- 博客(114)
- 资源 (3)
- 收藏
- 关注
转载 Hadoop-2.7.6双namenode配置搭建(Hadoop)高可用集群部署教程
配置双namenode的目的就是为了防错,防止一个namenode挂掉数据丢失,具体原理本文不详细讲解,这里只说明具体的安装过程。Hadoop HA的搭建是基于Zookeeper的,关于Zookeeper的搭建可以查看这里 hadoop、zookeeper、hbase、spark集群环境搭建 ,本文可以看做是这篇文章的补充。这里讲一下Hadoop配置安装。配置Hadoop文件需要修改的...
2018-06-28 17:13:02 1530
原创 ubuntu安装配置eclipse+hadoop开发环境(十分详细)+WordCount实例
我的环境:系统平台:Ubuntu14.04TLS(64位)Hadoop环境:Hadoop2.8.3Eclipse:Neon.2 Release(4.6.2)Eclipse插件:hadoop-eclipse-plugin-2.8.3.jar1.先确保已安装了jdk和hadoop,没有的可参考以下两篇文章,已经安装的跳过此步骤ubuntu jdk安装教程ubuntu搭建hadoop-2.8.3(伪分布...
2018-03-17 19:30:01 4495 2
原创 ubuntu搭建hadoop-2.8.3(伪分布式)
最好不要以root用户进行配置,选择一个普通用户进行配置!!!1.先安装jdk,已安装的可以跳过此步骤,未安装的可参考以下教程 linux安装jdk教程2.下载hadoop-2.8.3下载地址:hadoop下载3.将下载的hadoop-2.8.3拷贝至linux系统桌面解压至根目录命令:sudo tar -zxvf /home/qy/桌面/hadoop-2.8.3.tar.gz -C /home/...
2018-03-14 20:35:58 2013
原创 linux ubuntu jdk安装教程
1.先从官网下载jdk jdk官网下载地址2.将下载的jdk拷贝至linux系统,先放在linux桌面即可3.在/usr/lib下新建目录jvm命令:sudo mkdir -p /usr/lib/jvm注:在普通用户下即可,不用提升至root用户4.将下载的jdk解压到/usr/lib/jvm下命令:sudo tar -zxvf /home/qy/桌面/jdk-8u161-linux-x64...
2018-03-14 12:25:45 774
原创 clickhouse union all之后数据量不一致
问题:clickhouse使用union all查询结果与每一段sql查询结果只和不一致。原因:因为clickhouse版本问题,官方给出不同的解释。解决方案:将union all的每一段sql用括号括起来。clickhouse版本:22.8.16.32。
2023-09-15 16:36:17 942
原创 Spark集成hudi创建表报错
org.apache.hudi.exception.HoodieException: 'path' or 'Key: 'hoodie.datasource.read.paths' , default: null description: Comma separated list of file paths to read within a Hudi table. since version: version is not defined deprecated after: version is not de
2023-09-14 11:33:50 701
原创 Flink、Spark、Hive集成Hudi
版本:0.13.1版本:flink-1.15.2spark版本:3.3.2Hive版本:3.1.3Hadoop版本:3.3.4。
2023-09-14 09:46:19 778 1
原创 Flink-cdc报错整理oracle、mysql、OceanBase、kingbase(附详细代码)
解决方案:移除flink lib下jar包:flink-table-planner-loader-1.15.2.jar。解决方案:flink lib下添加jar包:flink-table-planner_2.12-1.15.2.jar。
2023-06-27 22:06:28 1146
原创 Ambari 2.7.5+HDP3.1.5离线扩容不同配置组
确保ambari server节点启动,Httpd 服务安装并启动,可参考:Ambari 2.7.5+HDP3.1.5离线安装详细教程(附安装包)
2023-05-05 17:00:53 1044
原创 oracle centos7安装Oracle12(附oracle所有版本安装包)
环境: centos 7 Oracle12c 配置环境安装依赖yum -y install binutils.x86_64 compat-libcap1.x86_64 gcc.x86_64 gcc-c++.x86_64 glibc.i686 glibc.x86_64 glibc-devel.i686 glibc-devel.x86_64 ksh compat-libstdc++-33 libaio.i686 libaio.x86_64 libaio-devel.i686 lib
2023-04-12 17:37:47 896
原创 centos8 Ambari-2.7.6.3+HDP-3.3.1离线安装详细教程(附安装包)
centos8离线安装Ambari-2.7.6.3+HDP-3.3.1详细教程(附安装包)
2023-01-16 09:49:46 4578 25
原创 7. KETTLE-9.3.0 centos安装部署
Linux centos7安装部署KETTLE-9.3.0,整合hive整合mysql+job测试
2022-07-19 16:13:56 4968 3
原创 Ambari 2.7.5+HDP3.1.5离线安装详细教程(附安装包)
一.准备工作系统:centos7.6(推荐使用:redhat7、redhat-ppc7、ubuntu14、ubuntu16、ubuntu18)Ambari版本: 2.7.5HDP版本:3.1.5主机:系统 ip 主机名称 主机名 内存 Ambari server mysql httpd服务 centos7.6 192.168.112.143 cluster01.toroidal.comcluster01 8G √ √.
2022-02-22 11:23:26 3489
原创 Spark 递归解析Json
package com.aisainfoimport org.apache.spark.sql.{Column, DataFrame, SparkSession}import org.apache.spark.sql.types._import org.apache.spark.sql.functions._/** * @Author Toroidal * @Date 2021/12/31 11:32 * @Version 1.0 */object Test { def main.
2021-12-31 17:00:05 1229
原创 cdh6.2.1完全离线安装教程
一.准备工作系统:centos7.6cdh版本:6.2.1主机:系统 ip 主机名称 主机名 内存 cm server mysql httpd服务 centos7.6 192.168.112.138 cluster01.toroidal.comcluster01 8G √ √ centos7.6 192.168.112.133 cluster02.toroidal.comcluster02 4G ...
2021-09-16 15:14:38 1089
原创 搭建伪分布式zookeeper-3.5.9
# 切换到zookeeper目录下cd /opt/software/zookeeper-3.5.9-bin# 修改配置文件#拷贝一份配置文件cp conf/zoo_sample.cfg conf/zoo01.cfg# 编辑 zoo01.cfgvim conf/zoo01.cfg# 修改dataDir=${ZOOKEEPER_HOME}/data/2181/dataDirclientPort=2181# 添加dataLogDir=${ZOOKEEPER_HOME}/log/2.
2021-09-15 11:18:30 195
原创 IDEA必备插件大全
1. Background Image Plus +该插件支持用户自定义设置Idea的背景图,并且能修改背景图的透明度,效果如下:一边看美女一边写代码是不是腰也不疼了,头也不昏了。设置方法:打开settings,找到Background Image Plus。设置图片文件夹路径即可,可以设置循环切换背景图。查找图片路径后不显示文件夹中的图片没关系,只要文件路径对,里有图片就可以,正常可用。也可在此处设置,第一次先清除背景图片再设置2. Translation...
2021-08-03 18:01:33 24206 2
原创 canal-1.1.5+mysql8+kafka安装部署
环境:centos7canal-1.1.5mysql-8.0.2kafka-2.1.0+cdh6.2.11. 简介:canal [kə'næl],译意为水道/管道/沟渠,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费早期阿里巴巴因为杭州和美国双机房部署,存在跨机房同步的业务需求,实现方式主要是基于业务 trigger 获取增量变更。从 2010 年开始,业务逐步尝试数据库志解析获取增量变更进行同步,由此衍生出了大量的数据库增量订阅和消费业务。基于.
2021-06-22 08:48:57 716
原创 CDH6.2.1集成flink(flink on yarn或Flink-Standalone服务)
目录一:环境准备二:下载安装包1. Flink-shaded包2. flink1.10.2 源码包3. maven配置文件三:编译flink-shaded版本1. 解压tar包2. 解压文件后目录结构3. 修改pom文件4. 开始编译四:编译Flink1.10.2源码1. 解压tar包2. 执行编译3. 等待编译成功4. 打包编译好的文件五:制作parcel包1. 下载git开源制作parcel包的项目2. 修改配置文件 flink-parcel.properties3
2021-06-16 19:39:30 1877 10
原创 centos7 新增磁盘扩容逻辑卷
需求:新增加一块4T磁盘到/data/data00下面1. Linux 行执行命令: lsblk ,查看是否是lvm类型
2021-05-31 16:22:37 1093
原创 IDEA报错找不到或者无法加载主类以及控制台乱码Maven项目运行极慢等问题终极解决方案
问题1:错误:找不到或无法加载主类 com.xxx解决方案有两个:第一个方案(推荐):勾选 Store generated project files externally第二个方案(不推荐):勾选 Delegate IDE build/run actions to Maven为什么不推荐了呢,原因有两个点:第一个原因,勾选 Delegate IDE build/run actions to Maven 会导致项目测试运行极慢,因为每次都会走maven去clean-packa
2021-01-28 15:49:46 572 1
原创 分布式搭建-10 Flink三种模式安装教程
2. Flink集群安装Flink支持多种安装模式local(本地)——单机模式,一般不使用standalone——独立模式,Flink自带集群,开发测试环境使用yarn——计算资源统一由Hadoop YARN管理,生产测试环境使用2.1. 伪分布环境部署Flink程序需要提交给Job ClientJob Client将作业提交给Job ManagerJob Manager负责协调资源分配和作业执行。 资源分配完成后,任务将提交给相应的Task ManagerTask Manage
2021-01-26 16:15:21 394
原创 scala-7 Akka并发编程框架
Akka并发编程框架简介Akka介绍Akka是一个用于构建高并发、分布式和可扩展的基于事件驱动的应用的工具包。Akka是使用scala开发的库,同时可以使用scala和Java语言来开发基于Akka的应用程序。Akka特性提供基于异步非阻塞、高性能的事件驱动编程模型内置容错机制,允许Actor在出错时进行恢复或者重置操作超级轻量级的事件处理(每GB堆内存几百万Actor)使用Akka可以在单机上构建高并发程序,也可以在网络中构建分布式程序。Akka通信过程以下图片说明了Ak
2021-01-22 16:41:42 433
原创 scala-6 高阶函数、隐式转换、隐式参数
高阶函数scala 混合了面向对象和函数式的特性,在函数式编程语言中,函数是“头等公民”,它和Int、String、Class等其他类型处于同等的地位,可以像其他类型的变量一样被传递和操作。高阶函数包含作为值的函数匿名函数闭包柯里化等等作为值的函数在scala中,函数就像和数字、字符串一样,可以将函数传递给一个方法。我们可以对算法进行封装,然后将具体的动作传递给方法,这种特性很有用。我们之前学习过List的map方法,它就可以接收一个函数,完成List的转换。示例示例说明
2021-01-22 16:33:47 240
原创 scala-5 Actor基于事件并发的编程模型
Actor介绍scala的Actor并发编程模型可以用来开发比Java线程效率更高的并发程序。我们学习scala Actor的目的主要是为后续学习Akka做准备。Java并发编程的问题在Java并发编程中,每个对象都有一个逻辑监视器(monitor),可以用来控制对象的多线程访问。我们添加sychronized关键字来标记,需要进行同步加锁访问。这样,通过加锁的机制来确保同一时间只有一个线程访问共享数据。但这种方式存在资源争夺、以及死锁问题,程序越大问题越麻烦。线程死锁Actor并发
2021-01-21 17:39:06 280
原创 scala-4 样例类、正则匹配、泛型、异常处理、类型转换
样例类样例类是一种特殊类,它可以用来快速定义一个用于保存数据的类(类似于Java POJO类),在后续要学习并发编程和spark、flink这些框架也都会经常使用它。定义样例类语法格式case class 样例类名([var/val] 成员变量名1:类型1, 成员变量名2:类型2, 成员变量名3:类型3)如果要实现某个成员变量可以被修改,可以添加var默认为val,可以省略示例 | 定义一个样例类需求定义一个Person样例类,包含姓名和年龄成员变量创建样例类的对象实例(
2021-01-21 17:22:43 321
原创 scala-3 类、object、特质
类和对象scala是支持面向对象的,也有类和对象的概念。我们依然可以基于scala语言来开发面向对象的应用程序。创建类和对象用法使用class来定义一个类使用new来创建对象示例创建一个Person类,并创建它的对象步骤创建一个scala项目,并创建一个Object添加main方法创建类和对象实现在IDEA中创建项目,并创建一个Object(main方法必须放在Object中)添加main方法创建一个Person类在main方法中创建Person类对象参
2021-01-18 11:17:27 469
原创 scala-1 开发环境安装搭建
开发环境安装学习如何编写scala代码之前,需要先安装scala编译器以及开发工具Java程序编译执行流程Scala程序编译执行流程scala程序运行需要依赖于Java类库,必须要有Java运行环境,scala才能正确执行根据上述流程图,要编译运行scala程序,需要jdk(jvm)scala编译器(scala SDK)接下来,需要依次安装以下内容:安装JDK安装scala SDK安装IDEA插件安装JDK安装JDK 1.8 64位版本,并配置好环境变量
2021-01-13 16:00:18 154
原创 scala-2 基础
scala简介scala是运行在JVM上的多范式编程语言,同时支持面向对象和面向函数编程早期,scala刚出现的时候,并没有怎么引起重视,随着Spark和Kafka这样基于scala的大数据框架的兴起,scala逐步进入大数据开发者的眼帘。scala的主要优势是它的表达性。接下来,我们要来学习:为什么要使用scala?通过两个案例对比Java语言和scala语言为什么使用scala开发大数据应用程序(Spark程序、Flink程序)表达能力强,一行代码抵得上Java多行,
2021-01-13 12:19:00 612
原创 分布式搭建-9 Docker安装
# 1、yum 包更新到最新 yum update# 2、安装需要的软件包, yum-util 提供yum-config-manager功能,另外两个是devicemapper驱动依赖的 yum install -y yum-utils device-mapper-persistent-data lvm2# 3、 设置yum源yum-config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo#
2021-01-12 15:30:15 152
Java进阶Spring和springMVC详细示例精通教程资料.7z
2020-03-24
spark 数据算法 Hadoop/Spark大数据处理技巧(Data Algorithms)
2018-12-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人