自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

QYHuiiQ

java

  • 博客(479)
  • 收藏
  • 关注

原创 数据库是否可以直接作为数据仓库的数据源

在数据仓库使用数据时,我们是否可以直接将数据库作为数据源?如果使用了,会存在哪些问题?

2023-12-28 21:09:57 712

原创 浅识数据库与数据仓库的区别

数据库:由于数据库的主要作用就是用来查找业务数据,而行式存储有利于查询服务,数据库中采用的是行式存储;并且查询数据时,如果数据量是巨大的,那么就会影响查询性能,所以数据库中不存储海量数据。数据仓库:由于数据仓库的主要作用是用来做分析统计的,而列式存储有利于统计分析,在数据仓库中使用的是列式存储;数据库:数据库中的数据存储的是业务核心数据,在企业运行中,应保证数据库中的数据正常可用。数据仓库:数据来源于数据库,将数据库中的数据加工处理之后得到的数据。数据库:数据来源于企业中基础的、核心的业务数据。

2023-12-28 20:46:09 975

原创 2023下软考高项信息系统项目管理师考试总结

停更的这段时间一直在备考学习软考信息系统项目管理师考试,然而论文没有通过,三科成绩:51/57/39,论文考的是合同管理,自认为合同管理的四个方面都答得挺好的,但是没有通过,这个分数可能是踩到红线了,但也确实不知道该怎么准备了,看到网上很多同学考了好几次了还没通过,感觉自己也不是很想继续考了,如果是综合知识和案例分析这种答案明确的科目没有通过的话,还可以去弥补,但论文这种没有统一标准的东西很难把握,接下来可能还是继续直接学习技术吧。

2023-12-14 15:49:10 510

原创 Flink DataStream之输出数据到File中

正在写入的文件会有inprogress的标识(在指定的目录下生成文件时会按照日期的年月日时进行分目录,因为我在执行时的时间是2023/7/12 22点,所以它就会自动生成一个2023-07-12--22目录,分桶策略也可以自己在代码中配置。

2023-07-12 22:11:10 960

原创 Flink DataStream之Connect合并流

此时在窗口中输入数据,注意在7777端要输入数字,8888端输入字符串,然后观察控制台输出。

2023-07-09 17:42:07 864

原创 Flink DataStream之Union合并流

【代码】Flink DataStream之Union合并流。

2023-07-09 16:11:05 748

原创 Flink DataStream之使用filter实现分流

可以看到输入的"World"由于不满足两个filter中的任何一个,所以数据被舍弃。"Monday"和"World"分别打印在两个不同的流中。

2023-07-09 14:30:14 740

原创 Flink DataStream之从Kafka读数据

如图说明flink从kafka成功读取数据。

2023-07-04 22:28:42 840

原创 Flink读取kafka数据报错

【代码】Flink读取kafka数据报错。

2023-07-04 22:26:49 2561

原创 Flink DataStream之从集合/文件读数据

【代码】Flink DataStream之从集合/文件读数据。

2023-06-24 22:01:44 422

原创 Flink DataStream之创建执行环境

【代码】Flink DataStream之创建执行环境。

2023-06-24 17:47:52 282

原创 Flink 1.17.0集群搭建

修改hadoop02和hadoop03的conf/flink-conf.yaml中的taskmanager.host,改为当前各自的主机名。修改conf/flink-conf.yaml(从flink1.16版本开始,需要修改以下配置)然后将hadoop01节点上的flink包分发至hadoop02和hadoop03。修改conf/workers(将三台TaskManager节点加进来)修改conf/masters(将JobManager节点加进来)

2023-06-10 16:09:46 2501 1

原创 Flink 1.13.0集群搭建

默认情况下每个TaskManager的任务槽是1,这里我们有两个TaskManager。然后我们尝试用Yarn模式启动集群,前提是要启动Hadoop。停掉flinnk集群。

2023-04-06 22:11:39 616

原创 以Yarn模式启动Flink报错Exception in thread “main“ java.lang.NoClassDefFoundError: org/apache/hadoop/yarn/ex

下载对应的jar,按照Hadoop的版本(我的是2.7.5)下载。然后放到Flink的lib目录下。

2023-04-06 21:58:46 923 2

原创 Flink入门WordCount无界流处理实现

由于同一条数据中的word是并行运算的,所以同一条数据的word的输出结果也是乱序的。

2023-04-04 22:09:15 201

原创 Flink入门WordCount有界流处理实现

与之前批处理的运行结果相比,这里可以发现有的word出现了多次,这正是体现了流处理按照流的方式一条一条处理的,所以每次处理后都会有一个结果输出。在使用IDEA运行该程序时,它会以多线程的方式模拟Flink集群的工作机制并行计算(并行数默认是本机CPU核心数,假设CPU核心数是8,那么最前面的数字就只会出现1-8),每行结果最前面的数字表示哪个线程负责的此次运算。基于多线程并行运算,所以计算输出的结果并没有按照原始数据文件的word顺序进行输出,所以运算结果看到的就是乱序的。

2023-04-04 21:42:35 126

原创 Flink入门WordCount批处理实现

【代码】Flink入门WordCount批处理实现。

2023-04-04 20:58:21 124

原创 好记性不如烂笔头之Java基础复习笔记

未完待续。。。

2023-02-14 20:30:33 2281 1

原创 Spark DStream之有状态操作实现WordCount

在之前的案例中,实现的DStream是通过每个采集周期内独立进行逻辑处理的,在某些业务场景中,可能是需要将每个周期内的计算结果进行汇总,这时就需要一种有状态的采集。可以看到最终态的count值确实是所有周期内的结果汇总在一起的。

2022-11-24 20:11:35 318

原创 Spark DStream之无状态操作实现WordCount

可以看到控制台中是以2秒的周期进行数据采集的,同一周期内的数据一起处理。这样就实现了DStream中近实时、微批量的数据处理。

2022-11-23 20:52:12 566

原创 windows下安装netcat

打开两个窗口,一个发消息,一个监听。这样就说明连接建立成功。nc -lp 端口号。

2022-11-23 20:27:10 300

原创 Spark SQL之IDEA中的应用

【代码】Spark SQL之IDEA中的应用。

2022-11-20 19:51:20 651

原创 Spark SQL之DataSet简单操作

【代码】Spark SQL之DataSet简单操作。

2022-11-16 20:16:00 701

原创 SparkSQL之DataFrame的简单操作

【代码】SparkSQL之DataFrame的简单操作。

2022-11-15 20:45:35 371

原创 Spark自定义累加器实现WordCount

【代码】Spark自定义累加器实现WordCount。

2022-11-05 21:04:36 159

原创 Spark自定义分区器

【代码】Spark自定义分区器。

2022-11-03 21:33:30 561

原创 Spark join操作

所以在使用join操作的时候要慎重,因为在这个过程中涉及到笛卡尔积的计算会造成join之后的数据量大量增长,引起性能问题。当两个RDD中的key没有同时存在时,只会将共同存在的key的值进行连接,各自单独存在的key会丢掉。rdd1中单独存在的key为x,和rdd2中单独存在的key为y的元素都不会进行连接。同一个key在某个RDD中出现多次时,会做一个类似于笛卡尔积的操作,进行两两连接。rdd1调用右外连接时,会以rdd2为主,将rdd2中的所有key进行连接。

2022-10-30 16:20:34 473

原创 Spark交集/差集/并集/拉链

一定要注意,在Spark中使用zip时,必须是两个RDD中的元素个数相同才可以,否则报错。

2022-10-25 21:33:55 916

原创 Spark sort算子

在多个分区的情况下,如果使用sort,会将所有分区的数据放在一起进行排序,排序后再重新分区,而不是在各自的分区内进行排序,在该算子实现过程中是有shuffle操作的。默认排序是升序,也就是sortBy中的参数二表示升序默认是true,如果需要降序排序,可以将其设置为false。可以看到结果中是将原RDD中的所有数据放一起进行排序的,之后再进行分区。可以看到运行结果也是先对全局RDD进行排序,再分组。对于字符串类型的数据,会按照字典序进行排序。

2022-10-25 21:11:38 593

原创 Spark coalesce算子

出现这样的结果是因为,coalesce算子默认不会打乱原来分区内的数据,即不会拆散原来某个分区内的数据重新组合,这样也就会可能导致数据倾斜,所以我们可以加上第二个参数设置为true,来表示在缩减分区时允许数据重新组合(是否shuffle)来实现数据均衡。好像并没有像我们想的那样会将原来RDD中的前三个元素放在一个分区,后三个元素放在一个分区。原来RDD中的前两个元素被分到了一个分区,后两个元素被分到了一个分区。这样,缩减分区后的数据相对来讲就不会出现不平衡的情况。

2022-10-25 19:52:38 708

原创 Spark测试元素操作前后分区不变

可以看到,原始元素中1和2都在分区00000中,做乘操作后,对应的2和4也在分区00000中,以上测试说明在操作元素前后,分区不变。在Spark中,对原始的RDD中的元素进行操作,例如乘法操作,操作前后,元素对应的值所在的分区不变。生成了两个目录,并在各自目录下根据我们的参数配置,各自生成了两个分区文件。

2022-10-20 21:19:14 178

原创 Spark中flatMap的操作

【代码】Spark中flatMap的操作。

2022-10-20 20:48:51 510

原创 Spark中对分区编号的操作

【代码】Spark中获取分区编号。

2022-10-19 21:23:14 340

原创 Linux环境搭建spark3 yarn模式

这里一定要注意hostname中不能包含下划线!搭建好之后启动hadoop集群。至此,spark的搭建基本完成。

2022-10-12 22:05:56 789

原创 Hadoop3.2.0运行wordcount程序报错Please check whether your etc/hadoop/mapred-site.xml contains the below

将修改后的文件同步到集群中的其他节点上,不需要重启集群,重新运行原来自己要执行的程序即可正常执行。

2022-10-12 20:28:37 1200

原创 启动hadoop集群报错ERROR: Cannot set priority of namenode process 2570

因为主机名中包含了下划线,所以报错。

2022-10-11 22:01:16 2294 1

原创 Spark之WordCount案例

【代码】Spark之WordCount案例。

2022-10-08 21:44:20 384

原创 运行Spark报错org.apache.spark.SparkException: A master URL must be set in your configuration

【代码】运行Spark报错org.apache.spark.SparkException: A master URL must be set in your configuration。

2022-10-08 21:16:36 930

原创 Windows环境下配置Spark3.0.0

如果双击的时候是闪了一下,那么说明安装成功。至此,Spark的环境就搭建好了。

2022-10-08 21:00:31 632

原创 运行Spark报错scalac: Token not found

【代码】运行Spark报错scalac: Token not found。

2022-10-08 19:36:43 651

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除