johnny.yi-CSDN博客

原创 Vertex did not succeed due to OWN_TASK_FAILURE, failedTasks:1 killedTasks:355, Vertex vertex_1723443

报错信息：Vertex did not succeed due to OWN_TASK_FAILURE, failedTasks:1 killedTasks:355, Vertex vertex_1723443443009_487387_1_06 [Reducer 7] killed/failed due to:OWN_TASK_FAILURE]DAG d。比如我这次的报错，就是select一个null而报错，视开发平台不同而判断。明明很简单的select语句查询却会报错，这个时候注意一下你的字段类型。

2024-08-16 22:41:01 986

原创 hive 中编写生成连续月sql

编写生成从一个确定的起始月份到当前月份的连续月份序列。

2024-07-30 15:42:05 1023

原创 Revman的下载安装（win/mac）

链接: https://pan.baidu.com/s/1YBnl17qjX5jzHxLS2X4s8A?pwd=ux9n 提取码: ux9n。mac/win 的 revman 安装包链接如下。

2024-03-09 14:56:25 11880 4

原创使用Revman绘制森林图教程

Studies and references ——》References to studies ——》Included studies 右键选择Add Study。可以对生成的森林图进行保存，可以选择保存格式，有 xml、png 等等格式可供选择。我们选择刚刚创建成功的数据分析，右键选择 Add Outcome。我们选择添加文献，这里的文献就是我们前面录入进来的。这里我们选择 nothing，finish——》第三项是针对什么专题的什么健康问题的什么研究。选择 nothing，next——》

2024-03-09 14:52:04 3842 2

原创本地 idea 连接操作服务器上的 kafka，配置内外网映射

在 Kafka 的安装目录中的 config/server.properties文件中。172.25.38.169 是内网地址，39.106.91.145 是外网地址。注释掉原来的advertised.listeners 和 listeners。添加以下内容，将下面内容中的 IP 和端口号改成自己对应的。主要就是内外网映射的配置。

2023-12-12 09:18:55 1438

原创 centos 上redis以及远程连接工具rdm安装与使用

链接: https://pan.baidu.com/s/1R120Va9FEyraLdiPe9fBHg?链接: https://pan.baidu.com/s/1GiYnfIuQdSUmMX_4lVXVhA?复制解压目录下的 redis.conf文件到安装目录的 bin 目录中。这里Redis安装包放在 /opt/install 目录下。进入 redis 的 bin目录（不是解压目录）解压到 /opt/soft 目录下。进入解压后的 redis 目录。如下图所指可打开命令窗口。打开另一个窗口测试一下。

2023-11-09 11:22:45 1164

原创 linux 上flink单机安装详解

百度网盘资源：链接: https://pan.baidu.com/s/15aXmF3JLxnOlPiDxId637Q?pwd=sqsx 提取码: sqsx这里准备的版本是flink1.13.2下载后上传至 linux 上，这里是上传到 /opt/install 目录下。

2023-10-31 11:10:44 1121

原创 spark DStream从不同数据源采集数据（RDD 队列、文件、diy 采集器、kafka）（scala 编程）

b、实现方式: 通过ssc.queueStream(queueOfRDDs)创建DStream，每一个推送这个队列的RDD，都会作为一个DStream处理。a、自定采集器类，继承extends，并指定数据泛型，同时对父类的属性赋值，指定数据存储的级别。目前有：采集kafka、采集netcat工具的指定端口的数据、采集文件目录中的数据等。-- DirectAPI：是由计算的Executor来主动消费Kafka的数据，速度由自身控制。采集器的作用是从指定的地方，按照采集周期对数据进行采集。

2023-10-16 10:04:35 764 1

原创 spark stream入门案例：netcat准实时处理wordCount（scala 编程）

- 4. 采集器位于一个executor中，是一个线程，执行时需要一个核，如果设定的总核数为1时，那么在运行时因为没有核数，所以不会有打印结果，所以sparkStreaming使用的核数至少为2个。b、在每一个采集周期内，会执行wordcount计算，最终得出:统计出每一个采集周期时间的wordcount。a、采集周期时间之间，每一个采集周期生成一个RDD，按照时间的顺序依次进行。-- 3. 采集器在正常情况下启动后就不应该停止，除非特殊情况。-- 5. print()方法，默认是打印10行结果。

2023-10-16 09:52:53 1044 2

原创 spark 与 mapreduce 对比

多进程模型的好处是便于细粒度控制每个任务占用的资源，但每次任务的启动都会消耗一定的启动时间，即MapReduce 的Map Task和Reduce Task是进程级别的，都是 jvm 进程，每次启动都需要重新申请资源，消耗了不必要的时间。所以对于下次再次使用此 RDD时，不用再次计算，而是直接从缓存中获取，因此可以减少数据加口载耗时，所以更适合需要迭代计算的机器学习算法。1）两者都是基于内存计算的，任何计算框架都肯定是基于内存的，所以说网上所说的 Spark 是基于内存计算所以快，显然是错误的。

2023-10-11 16:37:35 1566

原创用idea工具scala 和 Java开发 spark案例：WordCount

首先准备好数据，即一个 txt 文本里面加一些单词，可以放在 hdfs 或本地或其它地方，读取的时候注意改代码，这里是读取 hdfs 上的 txt 文本，注意改成自己的地址。出现这种错误看字面意思就很容易明白，这是本地与 datanode 通信时，namenode 给的是 datanode 的内网 ip，所以本地找不到。原本就下载过这些依赖的没必要再下一遍，可以用之前的，比如 json，mysql，mysq 这里版本是 mysql 5 ，不一样的注意修改。云服务器的朋友可能有的报错。

2023-10-09 16:33:59 1297

原创 scala数组函数合集

在 scala 中Array数组是一种可变的、可索引的数据集合创建数组语法为[ ]内为数组内的数据类型（Any 表示任何类型，如果你研究过 scala 就会明白 scala 有面向对象的特点，这里 Any 就是对象的父类，类比 java 中的 object）

2023-10-08 22:02:11 754

原创 Linux安装 spark 教程详解

链接: https://pan.baidu.com/s/1Brm6XqaqYQnXQwOd8mUt7A?链接: https://pan.baidu.com/s/1ua01OvTYjFQyG82AG1g1yg?scala 的安装比较简单，spark 的运行环境需要 scala。添加配置，这里根据自己的各个安装包的位置来。这里放在了 /opt/install 目录。这里放在了 /opt/install 目录。解压至 /opt/soft 目录。解压至 /opt/soft 目录。修改后保存退出，source一下。

2023-10-07 11:48:25 2837

原创 scala 连接 MySQL 数据库案例

这里只要能打印出连接，能添加进数据就算成功，其余的无非是 Java 连接数据库的操作了，大差不差了，有兴趣的可以自己往下加需求。这里的 url 一样换成自己的，若是在服务器上就换成服务器 ip，若在本地就用 localhost 就可以。mysql 8 就是 com.mysql.cj.jdbc.Driver。mysql 8 就是 com.mysql.jdbc.Driver。当然为了避免下载，可以直接去你的本地仓库查看你以前下过什么版本的依赖。这里的driver 换成对应自己版本的驱动。

2023-10-05 16:52:27 1571

原创两文学会scala （下）｜保姆级别教程（超详细）

注：该偏函数的功能是返回输入的List集合的第二个元素2）偏函数原理上述代码会被scala编译器翻译成以下代码，与普通函数相比，只是多了一个用于参数检查的函数——isDefinedAt，其返回值类型为Boolean。//检查输入参数是否合格//执行函数逻辑。

2023-10-05 16:33:47 426

原创两文学会scala （上）｜保姆级别教程（超详细）

Scala将面向对象和函数式编程结合成一种简洁的高级语言。Scala的静态类型有助于避免复杂应用程序中的错误，它的JVM和JavaScript运行时让你可以轻松地访问庞大的库生态系统来构建高性能系统。1.1.1为什么学习Scala1） Spark-新一代内存级大数据计算框架，是大数据的重要内容。2） Spark就是使用Scala编写的。因此为了更好的学习Spark，需要掌握Scala这门语言。3） Spark的兴起，带动Scala语言的发展！11.2 Scala发展历史。

2023-10-05 11:10:51 2166

原创 mac安装 scala 详细教程（包含在 idea 上使用，以及scala插件安装）

左上角 file——》project structure——》module——》点击一下 scala——》再点击上方 sources——》然后就会发现其文件夹颜色与 java 一致了。重启后——》左上角 file——》project structure——》Global Libraries——》中间区域有个+号——》选择 Scala SDK。打开 idea ——》左上角 idea——》setting——》Plugins——》搜索 scala——》点击安装。终端输入 scala，再写上几句语句试试是否正确。

2023-09-23 01:26:44 6022 2

原创 linux安装配置 flume

解压到/opt/soft 目录给解压的文件夹改个名。

2023-09-21 12:22:59 1122

原创 linux安装配置zeppein

zeppelin是一个让交互式数据分析变得可行的基于网页的开源框架，具有数据分析、数据可视化等功能。

2023-09-21 09:12:02 326

原创 kafka的 ack 应答机制

replica）就是 Kafka 为某个分区维护的一组同步集合，即每个分区都有自己的一个 ISR 集合，处于 ISR 集合中的副本，意味着 follower 副本与 leader 副本保持同步状态，只有处于 ISR 集合中的副本才有资格被选举为 leader。partition的leader落盘成功后返回ack，如果在follower同步成功之前leader故障，尽管 leader 已经落盘成功，但是 follower 的同步进度肯定是低于leader，这时故障，那么将会。java api 中相应参数。

2023-09-19 19:42:47 3270

原创 linux 环境变量详解/etc/proflie

Linux 环境变量是可以在多个文件中进行配置的，如/etc/proflie，/etc/profile.d/*.sh，~/.bashrc，~/.bash_profile等但是这些之间有什么区别呢。而如我们通过 ssh hadoop101 command,则在 hadoop101 上得到的就是一个non-login shell。bash的运行模式可以分为 login shell 和 non-login shell。在启动时，login shell 会加载如上图一中所示文件。这两种 shell 的区别在于。

2023-09-18 19:11:11 565

原创 linux安装配置 kafka并简单使用

这里提供了网盘资源链接: https://pan.baidu.com/s/1wUxEQuiPB1wRsjJ-FPPu7Q?pwd=9rm7 提取码: 9rm7这里安装包上传至/opt/insatll目录解压至/opt/soft目录解压后改个名。

2023-09-18 11:48:48 585

原创 linux安装sqoop

这里提供了网盘资源链接: https://pan.baidu.com/s/1QkFqVnlvuOJ_aB2bjn-OKg?pwd=ucsy 提取码: ucsy这里有两个压缩包，sqoop-1.4.7.tar.gz是 sqoop 的安装包，另一个是我们需要里面的一些 jar 包解压安装包改个简单的名字方便后面操作。

2023-09-15 11:26:22 1469

原创 Caused by: org.apache.hadoop.hbase.MasterNotRunningException: java.net.UnknownHostException: can not

在本地的hosts文件（win 后 mac 系统）中配置服务器的 ip ，和这里报错提示的字段。使用 Java api连接 hbase 发生报错,但是可以测试连接可以连上，并且能打印出连接。这个其实是我阿里云服务器实例的名字，找不到它也容易理解，就是因为没有在本地做域名映射。这里的意思是找不到iz2ze0szvj66t62cmr0u5tz。这里的问题很容易能看出来，是反复尝试访问却访问不到。这里我们主要关注一下 caused by后面的提示。当然不是云服务器报类似的错误也可按此思路找问题。

2023-09-14 16:15:39 565

原创自动化脚本一键安装 jdk，hadoop，hive

链接: https://pan.baidu.com/s/1wKHRjcqJHRTcvmHOxsn0Bw?链接: https://pan.baidu.com/s/1IUn3I6i3MmM6hv0rThZUQg?链接: https://pan.baidu.com/s/1V8snyELkUB_XaR44OFuzNQ?链接: https://pan.baidu.com/s/1EeFzYtvx2-HV79bVQhPfIA?这里的安装包名如果和这里不一样，也需在脚本中改成相应的。这条语句里的 ip 换成你自己的。

2023-09-13 15:32:12 489

原创安装配置 hbase

这里有网盘资源链接: https://pan.baidu.com/s/1PuqLmullK70ngeVs6G2oRQ?pwd=q93v 提取码: q93v这里安装包放在/opt/install解压到/opt/soft解压完改个简单的名字，这里改成 hbase235。

2023-09-13 13:10:32 599

原创 Error contacting service. It is probably not running.问题解决

查看zookeeper 目录下数据目录下的zookeeper.out如果你没找到这个目录那么 OK 你的问题就是 zoo.cfg 文件中数据目录设置错误zookeeper.out下报错。

2023-09-13 11:43:05 997 1

原创安装配置 zookeeper（单机版）

拷贝zoo_sample.cfg文件，拷贝成zoo.cfg。为这个解压的目录改个简单些的名字,这里改成 zk345。在/opt/soft/zk363/zkdata创建文件。这里的安装包是放在/opt/install 目录下。在zookeeper目录内进入到conf文件夹。添加日志存储目录dataLogDir。解压到/opt/soft 目录下。日志存储目录dataLogDir。修改数据目录dataDir。创建数据目录dataDir。开启 zookeeper。修改zoo.cfg文件。关闭zookeeper。

2023-09-13 10:41:23 732

原创 java网络编程，套接字socket

多台相互连接的计算机资源共享交换数据核心要点：在网络中，多台计算机如果希望进行通信/数据传递必须遵循某种规约，如果不遵循，则无法进行资源共享或数据的传递Socket：套接字【通信链路的节点或端点】Socket：提供给应用程序的接口。

2023-09-06 19:56:33 565

原创浅识java多线程

进程：应用程序的执行实例线程：CPU调度和分派的基本单位,进程中执行运算的最小单位。

2023-09-06 19:42:00 299

原创 JSON是什么？认识 json

轻量级的文本数据交换格式具有自我描述性【看到某个Json数据就能知道它的特点】比xml传输速度快【跨平台】

2023-09-06 19:25:09 482

原创下载配置 maven并在 idea 上应用

1.Maven定义:是项目构建和管理工具2.Maven定义:Apache组织下的产品(软件)3.Maven核心文件:pom文件(存储构建项目的类库的依赖)4.Maven核心文件pom文件的后缀是:XML[pom.xml]

2023-09-06 18:38:21 665

原创 hdfs 离开安全模式

大家没有关闭 hadoop 服务就关机，有些时候某些设备再开启启动就会进入一种安全模式。使用下面命令就能离开安全模式正常使用。

2023-09-06 08:51:58 1004

原创 hive 基础知识

在本节前我们需要明确 hive 是什么上面两个代码块，左边的是 mapreduce 的代码块，右边的是hive 的代码块很容易看出来，右边的 hive 写起来要更容易更快些，而执行效率，右边的 hive 只比左边多一个翻译的过程，就是将写的 HQL语句翻译成 mapreduce 去执行简单来说 hive 就是一个中间件，可以让我们写的 HQL 语句可以被翻译成 mapreduce去执行，让我们不必再去写 mapreduce 的代码，提升我们的开发效率。

2023-09-05 18:25:25 497

原创在 linux 虚拟机上安装配置 hive

链接: https://pan.baidu.com/s/18jF-Qri0hc52_rtL61O0YQ?将hive-default.xml.template改成hive-default.xml。到 install 目录下(install文件夹是我们用来存放安装包的自定义的文件夹）拷贝mysql8的驱动到/opt/soft/hive312/lib目录内。下载后上传到 linux 虚拟机的/opt/install文件夹下。下面命令在 hive312/lib 目录下进行。删除该目录下的 guava 文件。

2023-09-05 16:38:09 1080

自动化脚本一键安装 jdk，hadoop，hive

空空如也