大数据学习-2024.3.27
Hadoop Common:基础型功能
Hadoop Distributed File System (HDFS™):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。负责存放数据
Hadoop YARN:作业调度和集群资源管理的框架。负责资源的调配
Hadoop MapReduce:基于 YARN 的系统,用于并行处理大型数据集。大数据的计算框架
一句话简述:Hadoop是一个适合海量数据的分布式存储和分布式计算的平台。(面试必问!!!!)**
//使用传统方法模拟切分计算
package com.shujia.moniqiefen.chuantong;
import java.io.BufferedReader;
import java.io.FileReader;
import java.util.HashMap;
import java.util.Map;
import java.util.Set;
public class ClassNumberDemo {
public static void main(String[] args) throws Exception{
BufferedReader br = new BufferedReader(new FileReader("hadoop/data/students.csv"));
HashMap<String, Long> map = new HashMap<>();
String line = null;
while ((line=br.readLine())!=null){
String clazz = line.split(",")[4];
if (map.containsKey(clazz)){
map.put(clazz,map.get(clazz)+1L);
}else {
map.put(clazz,1L);
}
}
//1.遍历map集合,获取所有的键值对
// Set<Map.Entry<String, Long>> entries = map.entrySet();
// for (Map.Entry<String, Long> entry : entries) {
// String key = entry.getKey();
// Long value = entry.getValue();
// System.out.println(key+"---"+value);
// }
//2.根据map中的键获取对应的值
// Set<String> keySet = map.keySet();
// for (String clazz : keySet) {
// Long counts = map.get(clazz);
// System.out.println(clazz+"---"+counts);
// }
// //3.使用lambda表达式
map.forEach((k,v) -> System.out.println(k+"---"+v));
}
}