大数据场景
文章平均质量分 97
使用大数据生态圈组件构建各种数据流解决方案。
一头小山猪
在下"小山猪",软件工程+计算机科学双硕士学位。国内985+211研究生毕业,留美完成第二硕士学位。资深开发者,全栈开发工程师,大数据高级开发工程师。大数据金牌讲师,知名机构合作讲师,各云大学及平台合作讲师,自由创业者,CSDN博客专家。编程路上遇到的问题可以直接私信,然后文章视频马上安排!其它合作交流请添加主页微信,也欢迎加入文章结尾-官方粉丝微信群。
展开
-
MapReduce程序运行部署的几种方式 - 结尾附源码
本文关键字:Hadoop、MapReduce、jar。MapReduce是一个计算模型和框架,Hadoop将其实现并整合,因此我们可以脱离Hadoop软件环境直接在项目中编码测试。在实际的生产环境中,每个计算任务都是以jar包的形式存在,周期性的以不同的参数提交执行,这是离线计算任务的常见模式。当然,在测试阶段,可能也会使用yarn方式远程提交集群来执行任务,这可以更加真实的模拟任务的运行情况,同时也方便调试。原创 2023-06-25 14:23:55 · 515 阅读 · 0 评论 -
Flume实现Kafka数据持久化存储到HDFS
本文关键字:Flume、Kafka、HDFS、实时数据、存储。对于一些实时产生的数据,除了做实时计算以外,一般还需要归档保存,用于离线数据分析。使用Flume的配置可以实现对数据的处理,并按一定的时间频率存储,本例中将从Kafka中按天存储数据到HDFS的不同文件夹。原创 2023-05-30 00:32:18 · 2945 阅读 · 4 评论