
大数据
文章平均质量分 72
小蜜蜂127
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MapReduce模拟统计每日车流量-解决方案
其中,原始数据存储在traffic.txt文件中,每行格式为“时间戳,车流量”。执行以上代码后,将输出每个时间戳下的总车流量。为了模拟每日的车流量,可以使用MapReduce模型来处理数据。原创 2023-12-12 11:04:49 · 789 阅读 · 0 评论 -
大数据学习06-Spark分布式集群部署
Apache Spark 是一个快速的通用集群计算系统。它提供了Java, Scala, Python ,R 四种编程语言的 API 编程接口和基于 DAG 图执行的优化引擎。它还支持一系列丰富的高级工具:处理结构化数据的 Spark SQL,用于机器学习的 MLlib,控制图、并行图操作和计算的一组算法和工具的集合 GraphX,数据流处理 Spark Streaming。原创 2023-08-31 15:44:22 · 894 阅读 · 1 评论 -
大数据学习04-Hbase分布式集群部署
系统环境:centos7软件版本:jdk1.8、zookeeper3.4.8、hadoop2.8.5。原创 2023-07-20 15:01:09 · 259 阅读 · 0 评论 -
大数据学习05-Kafka分布式集群部署
系统环境:centos7软件版本:jdk1.8、zookeeper3.4.8、hadoop2.8.5本次实验使用版本 kafka_2.12-3.0.0。原创 2023-07-20 14:57:28 · 622 阅读 · 0 评论 -
大数据学习03-Hive分布式集群部署
本次实验中,Hive采用MySQL数据库保存Hive的元数据,而不是采用Hive自带的derby来存储元数据。Hive常用的HiveQL操作命令主要包括:数据定义、数据操作。Hive实现最大的优势是,对于非程序员,不用学习编写Java MapReduce代码,也可以完成MapReduce任务。原创 2023-07-18 17:33:06 · 885 阅读 · 0 评论 -
大数据学习01-Zookeeper分布式集群部署
官方文档上这么解释zookeeper,它是一个分布式服务框架,是Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。原创 2023-07-17 14:18:11 · 311 阅读 · 0 评论 -
大数据学习02-Hadoop分布式集群部署
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。原创 2023-07-17 12:13:08 · 642 阅读 · 0 评论