自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(89)
  • 收藏
  • 关注

原创 Revman的下载安装(win/mac)

链接: https://pan.baidu.com/s/1YBnl17qjX5jzHxLS2X4s8A?pwd=ux9n 提取码: ux9n。mac/win 的 revman 安装包链接如下。

2024-03-09 14:56:25 526

原创 使用Revman绘制森林图教程

Studies and references ——》References to studies ——》Included studies 右键选择Add Study。可以对生成的森林图进行保存,可以选择保存格式,有 xml、png 等等格式可供选择。我们选择刚刚创建成功的数据分析,右键选择 Add Outcome。我们选择添加文献,这里的文献就是我们前面录入进来的。这里我们选择 nothing,finish——》第三项是针对什么专题的什么健康问题的什么研究。选择 nothing,next——》

2024-03-09 14:52:04 654 2

原创 本地 idea 连接操作服务器上的 kafka,配置内外网映射

在 Kafka 的安装目录中的 config/server.properties文件中。172.25.38.169 是内网地址,39.106.91.145 是外网地址。注释掉原来的advertised.listeners 和 listeners。添加以下内容,将下面内容中的 IP 和端口号改成自己对应的。主要就是内外网映射的配置。

2023-12-12 09:18:55 905

原创 centos 上redis以及远程连接工具rdm安装与使用

链接: https://pan.baidu.com/s/1R120Va9FEyraLdiPe9fBHg?链接: https://pan.baidu.com/s/1GiYnfIuQdSUmMX_4lVXVhA?复制解压目录下的 redis.conf文件到 安装目录的 bin 目录中。这里Redis安装包放在 /opt/install 目录下。进入 redis 的 bin目录(不是解压目录)解压到 /opt/soft 目录下。进入解压后的 redis 目录。如下图所指可打开命令窗口。打开另一个窗口测试一下。

2023-11-09 11:22:45 737

原创 linux 上flink单机安装详解

百度网盘资源:链接: https://pan.baidu.com/s/15aXmF3JLxnOlPiDxId637Q?pwd=sqsx 提取码: sqsx这里准备的版本是flink1.13.2下载后上传至 linux 上,这里是上传到 /opt/install 目录下。

2023-10-31 11:10:44 666

原创 spark DStream从不同数据源采集数据(RDD 队列、文件、diy 采集器、kafka)(scala 编程)

b、实现方式: 通过ssc.queueStream(queueOfRDDs)创建DStream,每一个推送这个队列的RDD,都会作为一个DStream处理。a、自定采集器类,继承extends,并指定数据泛型,同时对父类的属性赋值,指定数据存储的级别。目前有:采集kafka、采集netcat工具的指定端口的数据、采集文件目录中的数据等。-- DirectAPI:是由计算的Executor来主动消费Kafka的数据,速度由自身控制。采集器的作用是从指定的地方,按照采集周期对数据进行采集。

2023-10-16 10:04:35 587 1

原创 spark stream入门案例:netcat准实时处理wordCount(scala 编程)

- 4. 采集器位于一个executor中,是一个线程,执行时需要一个核,如果设定的总核数为1时,那么在运行时因为没有核数,所以不会有打印结果,所以sparkStreaming使用的核数至少为2个。b、在每一个采集周期内,会执行wordcount计算,最终得出:统计出每一个采集周期时间的wordcount。a、采集周期时间之间,每一个采集周期生成一个RDD,按照时间的顺序依次进行。-- 3. 采集器在正常情况下启动后就不应该停止,除非特殊情况。-- 5. print()方法,默认是打印10行结果。

2023-10-16 09:52:53 697

原创 spark 与 mapreduce 对比

多进程模型的好处是便于细粒度控制每个任务占用的资源,但每次任务的启动都会消耗一定的启动时间,即MapReduce 的Map Task和Reduce Task是进程级别的,都是 jvm 进程,每次启动都需要重新申请资源,消耗了不必要的时间。所以对于下次再次使用此 RDD时,不用再次计算,而是直接从缓存中获取,因此可以减少数据加口载耗时,所以更适合需要迭代计算的机器学习算法。1)两者都是基于内存计算的,任何计算框架都肯定是基于内存的,所以说网上所说的 Spark 是基于内存计算所以快,显然是错误的。

2023-10-11 16:37:35 1184

原创 用idea工具scala 和 Java开发 spark案例:WordCount

首先准备好数据,即一个 txt 文本里面加一些单词,可以放在 hdfs 或本地或其它地方,读取的时候注意改代码,这里是读取 hdfs 上的 txt 文本,注意改成自己的地址。出现这种错误看字面意思就很容易明白,这是本地与 datanode 通信时,namenode 给的是 datanode 的内网 ip,所以本地找不到。原本就下载过这些依赖的没必要再下一遍,可以用之前的,比如 json,mysql,mysq 这里版本是 mysql 5 ,不一样的注意修改。云服务器的朋友可能有的报错。

2023-10-09 16:33:59 1029

原创 scala数组函数合集

在 scala 中Array数组是一种可变的、可索引的数据集合创建数组语法为[ ]内为数组内的数据类型(Any 表示任何类型,如果你研究过 scala 就会明白 scala 有面向对象的特点,这里 Any 就是对象的父类,类比 java 中的 object)

2023-10-08 22:02:11 609

原创 Linux安装 spark 教程详解

链接: https://pan.baidu.com/s/1Brm6XqaqYQnXQwOd8mUt7A?链接: https://pan.baidu.com/s/1ua01OvTYjFQyG82AG1g1yg?scala 的安装比较简单,spark 的运行环境需要 scala。添加配置,这里根据自己的各个安装包的位置来。这里放在了 /opt/install 目录。这里放在了 /opt/install 目录。解压至 /opt/soft 目录。解压至 /opt/soft 目录。修改后保存退出,source一下。

2023-10-07 11:48:25 1543

原创 scala 连接 MySQL 数据库案例

这里只要能打印出连接,能添加进数据就算成功,其余的无非是 Java 连接数据库的操作了,大差不差了 ,有兴趣的可以自己往下加需求。这里的 url 一样换成自己的,若是在服务器上就换成服务器 ip,若在本地就用 localhost 就可以。mysql 8 就是 com.mysql.cj.jdbc.Driver。mysql 8 就是 com.mysql.jdbc.Driver。当然为了避免下载,可以直接去你的本地仓库查看你以前下过什么版本的依赖。这里的driver 换成对应自己版本的驱动。

2023-10-05 16:52:27 1153

原创 两文学会scala (下)|保姆级别教程(超详细)

注:该偏函数的功能是返回输入的List集合的第二个元素2)偏函数原理上述代码会被scala编译器翻译成以下代码,与普通函数相比,只是多了一个用于参数检查的函数——isDefinedAt,其返回值类型为Boolean。//检查输入参数是否合格//执行函数逻辑。

2023-10-05 16:33:47 183

原创 两文学会scala (上)|保姆级别教程(超详细)

Scala将面向对象和函数式编程结合成一种简洁的高级语言。Scala的静态类型有助于避免复杂应用程序中的错误,它的JVM和JavaScript运行时让你可以轻松地访问庞大的库生态系统来构建高性能系统。1.1.1为什么学习Scala1) Spark-新一代内存级大数据计算框架,是大数据的重要内容。2) Spark就是使用Scala编写的。因此为了更好的学习Spark, 需要掌握Scala这门语言。3) Spark的兴起,带动Scala语言的发展!11.2 Scala发展历史。

2023-10-05 11:10:51 418

原创 mac安装 scala 详细教程(包含在 idea 上使用,以及scala插件安装)

左上角 file——》project structure——》module——》点击一下 scala——》再点击上方 sources——》然后就会发现其文件夹颜色与 java 一致了。重启后——》左上角 file——》project structure——》Global Libraries——》中间区域有个+号——》选择 Scala SDK。打开 idea ——》左上角 idea——》setting——》Plugins——》搜索 scala——》点击安装。终端输入 scala,再写上几句语句试试是否正确。

2023-09-23 01:26:44 2081 1

原创 linux安装配置 flume

解压到/opt/soft 目录给解压的文件夹改个名。

2023-09-21 12:22:59 810

原创 linux安装配置zeppein

zeppelin是一个让交互式数据分析变得可行的基于网页的开源框架,具有数据分析、数据可视化等功能。

2023-09-21 09:12:02 178

原创 kafka的 ack 应答机制

replica) 就是 Kafka 为某个分区维护的一组同步集合,即每个分区都有自己的一个 ISR 集合,处于 ISR 集合中的副本,意味着 follower 副本与 leader 副本保持同步状态,只有处于 ISR 集合中的副本才有资格被选举为 leader。partition的leader落盘成功后返回ack,如果在follower同步成功之前leader故障,尽管 leader 已经落盘成功,但是 follower 的同步进度肯定是低于leader,这时故障,那么将会。java api 中相应参数。

2023-09-19 19:42:47 1867

原创 linux 环境变量详解/etc/proflie

Linux 环境变量是可以在多个文件中进行配置的,如/etc/proflie,/etc/profile.d/*.sh,~/.bashrc,~/.bash_profile等但是这些之间有什么区别呢。而如我们通过 ssh hadoop101 command,则在 hadoop101 上得到的就是一个non-login shell。bash的运行模式可以分为 login shell 和 non-login shell。在启动时 ,login shell 会加载如上图一中所示文件。这两种 shell 的区别在于。

2023-09-18 19:11:11 437

原创 linux安装配置 kafka并简单使用

这里提供了网盘资源链接: https://pan.baidu.com/s/1wUxEQuiPB1wRsjJ-FPPu7Q?pwd=9rm7 提取码: 9rm7这里安装包上传至/opt/insatll目录解压至/opt/soft目录解压后改个名。

2023-09-18 11:48:48 361

原创 linux安装sqoop

这里提供了网盘资源链接: https://pan.baidu.com/s/1QkFqVnlvuOJ_aB2bjn-OKg?pwd=ucsy 提取码: ucsy这里有两个压缩包,sqoop-1.4.7.tar.gz是 sqoop 的安装包,另一个是我们需要里面的一些 jar 包解压 安装包改个简单的名字方便后面操作。

2023-09-15 11:26:22 1053

原创 Caused by: org.apache.hadoop.hbase.MasterNotRunningException: java.net.UnknownHostException: can not

在 本地的hosts文件(win 后 mac 系统)中配置服务器的 ip ,和这里报错提示的字段。使用 Java api连接 hbase 发生报错,但是可以测试连接可以连上,并且能打印出连接。这个其实是我阿里云服务器实例的名字,找不到它也容易理解,就是因为没有在本地做域名映射。这里的意思是找不到iz2ze0szvj66t62cmr0u5tz。这里的问题很容易能看出来,是反复尝试访问却访问不到。这里我们主要关注一下 caused by后面的提示。当然不是云服务器报类似的错误也可按此思路找问题。

2023-09-14 16:15:39 249

原创 自动化脚本一键安装 jdk,hadoop,hive

链接: https://pan.baidu.com/s/1wKHRjcqJHRTcvmHOxsn0Bw?链接: https://pan.baidu.com/s/1IUn3I6i3MmM6hv0rThZUQg?链接: https://pan.baidu.com/s/1V8snyELkUB_XaR44OFuzNQ?链接: https://pan.baidu.com/s/1EeFzYtvx2-HV79bVQhPfIA?这里的安装包名如果和这里不一样,也需在脚本中改成相应的。这条语句里的 ip 换成你自己的。

2023-09-13 15:32:12 361

原创 安装配置 hbase

这里有网盘资源链接: https://pan.baidu.com/s/1PuqLmullK70ngeVs6G2oRQ?pwd=q93v 提取码: q93v这里安装包放在/opt/install解压到/opt/soft解压完改个简单的名字,这里改成 hbase235。

2023-09-13 13:10:32 284

原创 Error contacting service. It is probably not running.问题解决

查看zookeeper 目录下数据目录下的zookeeper.out如果你没找到这个目录那么 OK 你的问题就是 zoo.cfg 文件中数据目录设置错误zookeeper.out下报错。

2023-09-13 11:43:05 387

原创 安装配置 zookeeper(单机版)

拷贝zoo_sample.cfg文件,拷贝成zoo.cfg。为这个解压的目录改个简单些的名字,这里改成 zk345。在/opt/soft/zk363/zkdata创建文件。这里的安装包是放在/opt/install 目录下。在zookeeper目录内进入到conf文件夹。添加日志存储目录dataLogDir。解压到/opt/soft 目录下。日志存储目录dataLogDir。修改数据目录dataDir。创建数据目录dataDir。开启 zookeeper。修改zoo.cfg文件。关闭zookeeper。

2023-09-13 10:41:23 483

原创 java网络编程,套接字socket

多台相互连接的计算机资源共享交换数据核心要点:在网络中,多台计算机如果希望进行通信/数据传递 必须遵循某种规约,如果不遵循,则无法进行资源共享或数据的传递Socket:套接字【通信链路的节点或端点】Socket:提供给应用程序的接口。

2023-09-06 19:56:33 470

原创 浅识java多线程

进程:应用程序的执行实例线程:CPU调度和分派的基本单位,进程中执行运算的最小单位。

2023-09-06 19:42:00 97

原创 JSON是什么?认识 json

轻量级的文本数据交换格式具有自我描述性【看到某个Json数据就能知道它的特点】比xml传输速度快【跨平台】

2023-09-06 19:25:09 341

原创 下载配置 maven并在 idea 上应用

1.Maven定义:是项目构建和管理工具2.Maven定义:Apache组织下的产品(软件)3.Maven核心文件:pom文件(存储构建项目的类库的依赖)4.Maven核心文件pom文件的后缀是:XML[pom.xml]

2023-09-06 18:38:21 569

原创 hdfs 离开安全模式

大家没有关闭 hadoop 服务就关机,有些时候某些设备再开启启动就会进入一种安全模式。使用下面命令就能离开安全模式正常使用。

2023-09-06 08:51:58 485

原创 hive 基础知识

在本节前我们需要明确 hive 是什么上面两个代码块,左边的是 mapreduce 的代码块,右边的是hive 的代码块很容易看出来,右边的 hive 写起来要更容易更快些,而执行效率,右边的 hive 只比左边多一个翻译的过程,就是将写的 HQL语句 翻译成 mapreduce 去执行简单来说 hive 就是一个中间件,可以让我们写的 HQL 语句可以被翻译成 mapreduce去执行,让我们不必再去写 mapreduce 的代码,提升我们的开发效率。

2023-09-05 18:25:25 427

原创 在 linux 虚拟机上安装配置 hive

链接: https://pan.baidu.com/s/18jF-Qri0hc52_rtL61O0YQ?将hive-default.xml.template改成hive-default.xml。到 install 目录下(install文件夹是我们用来存放安装包的自定义的文件夹)拷贝mysql8的驱动到/opt/soft/hive312/lib目录内。下载后上传到 linux 虚拟机的/opt/install文件夹下。下面命令在 hive312/lib 目录下进行。删除该目录下的 guava 文件。

2023-09-05 16:38:09 543

原创 idea 打 jar 包以及运行使用

打 jar 包的时候 test 里的 test 类中不能有代码,如果有会报错,可以注释掉。6. jar 包的名字和版本可以在 pom.xml文件中设置。2. 点击Lifecycle——》clean 运行。3. 点击 Lifecycle——》compile。4. 点击 Lifecycle——》package。5. 打成的 jar 包可以在 target中找到。1. 在 idea 右侧点击 maven。

2023-08-30 16:41:36 816 2

原创 mapreduce 的工作原理以及 hdfs 上传文件的流程

hdfs 上传文件的流程。

2023-08-30 16:25:02 868

原创 hadoop学习:mapreduce入门案例四:partitioner 和 combiner

先简单介绍一下partitioner 和 combinerPartitioner类Combiner类我们进入案例来看这两个知识点。

2023-08-30 16:21:14 1207

原创 Linux 虚拟机同步时间crontab以及crond详解

Crontab命令常见于Unix 和Unix的操作系统之中,用于设置周期性被执行的指令。该命令从标准输入设备读取指令,并将其存放于“crontab”文件中(是‘’cron table”的简写),以供之后读取和执行。该词来源于希腊语chronos,原意是时间。通常,crontab存储的指令被守护进程激活,crond常常在后台运行,每分钟检查是否预定的作业需要执行。

2023-08-30 10:16:04 1494

原创 hadoop 学习:mapreduce 入门案例三:顾客信息与订单信息相关联(联表)

这里的知识点在于如何合并两张表,事实上这种业务场景我们很熟悉了,这就是我们在学习 MySQL 的时候接触到的内连接,左连接,而现在我们要学习 mapreduce 中的做法这里我们可以选择在 map 阶段和reduce阶段去做数据:链接: https://pan.baidu.com/s/1PH1J8SIEJA5UX0muvN-vuQ?pwd=idwx 提取码: idwx顾客信息订单信息编写实体类 CustomerOrder。

2023-08-29 19:38:41 138

原创 hadoop学习:mapreduce入门案例二:统计学生成绩

这里相较于 wordcount,新的知识点在于学生实体类的编写,以及使用。2. mapper 阶段,StudentMapper 类。3. reduce 阶段,StudentReduce 类。4. 驱动类,studentDriver 类。1. Student 实体类。

2023-08-29 18:53:51 2000

原创 hadoop 学习:mapreduce 入门案例一:WordCount 统计一个文本中单词的个数

这个案例的需求很简单现在这里有一个文本wordcount.txt,内容如下现要求你使用 mapreduce 框架统计每个单词的出现个数这样一个案例虽然简单但可以让新学习大数据的同学熟悉 mapreduce 框架。

2023-08-29 18:34:42 1941

自动化脚本一键安装 jdk,hadoop,hive

自动化脚本一键安装 jdk,hadoop,hive

2023-09-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除