大数据
文章平均质量分 90
落叶的悲哀
这个作者很懒,什么都没留下…
展开
-
flink1.17.0 集成kafka,并且计算
这里只是做了一个简单的消费kafka的flink例子,消费成功后还可以通过sink发送出去,还可以用transform进行转换,这里后面再演示,如果不对的可以指出。原创 2023-05-31 15:30:48 · 3134 阅读 · 0 评论 -
hadoop3.2.4集成flink 1.17.0
hadoop,flink,集成原创 2023-05-24 11:05:00 · 2635 阅读 · 0 评论 -
hadoop使用MapReduce统计单词出现次数案例
前面的文章已经展示了如何在windows上传文件到hdfs,上传后如何简单的做统计,本文展示一下。上传文件到HDFS链接这里我们做一个案例,对一个上传到HDFS的文档中统计good出现的次数。文件内容如下大致的流程如下,先从hdfs读取数据,然后筛选出符合要求的数据并且做标记,最后使用reduce对各个结果进行汇总,最后的预期结果应该是统计文件内容为代码如下(示例):2.2 reduce类编写2.3 main类编写三、打包测试3.1 上传包到hadoop集群,并且执行jar3.1.1原创 2023-04-12 09:45:58 · 505 阅读 · 0 评论 -
springboot集成hadoop3.2.4HDFS
记录springboot集成hadoop3.2.4版本,并且调用HDFS的相关接口,这里就不展示springboot工程的建立了,这个你们自己去建工程很多教程。完整pom配置如下:1.2 properties文件修改加入以下配置name-node是这个服务的地址,可以在hadoop的配置文件中找,或者直接看hadoop集群namenode网页也可以看到端口号。我的集群的地址是以下这个:namespace是在hdfs上文件的地址,就是写文件要写到这个目录下面去。代码如下:2.2 新建hdfs操原创 2023-04-10 15:05:45 · 1698 阅读 · 0 评论 -
hadoop3.2.4 集群环境搭建
实际运用中,hadoop的搭建一定是集群部署方式,所以这里搭建了下集群部署方式,也熟悉hadoop的集群搭建。这里我就没有新建用户来运行hadoop程序,严格来说不能直接用root运行hadoop程序,这里我就懒得弄了,就直接用root运行,用root运行方法前一篇文章有说,可以看看前面的文章。原创 2023-04-04 10:07:45 · 873 阅读 · 0 评论 -
hadoop3.2.4伪分布式环境搭建
大数据hadoop学习,看官网,hadoop搭建有三种方式,单机伪分布式集群部署这里是伪分布式部署,即必须程序都在一台机器上完成部署。作为学习使用是最简单的方式。hadoop主要的程序有1.hdfs,分布式文件系统,启动后会有两个java程序,一个是datanode,一个是namenode。2,yarn yarn是对集群任务的分发控制,主要程序有nodemanage,resourcemanage两个程序。mapreduce只是计算的程序,不是这个框架本身启动的服务。原创 2023-04-03 17:14:47 · 463 阅读 · 0 评论