Hadoop
文章平均质量分 66
主要参考《Hadoop大数据挖掘从入门到进阶实战》
程研板
计算机本硕连读,热爱大数据和人工智能,希望能够为apache社区添砖加瓦。2025年起开始接做毕设的项目。
展开
-
《大数据技术体系详解》问题积累(持续更新)
文章目录一.数据收集1.关系型数据收集2.非关系型数据收集3.消息队列Kafka二.数据存储三.协调与资源管理四.计算引擎五.数据分析1.Hive2.Spark SQL一.数据收集1.关系型数据收集sqoop:全量收集。sqoop2和sqoop1的比较,就是将以前的CLI变为Server,然后再实现一个轻量级的CLI,可通过命令行或者HTTP来访问Server。就是把以前的CLI部署到了云端,现在的CLI只需要发送命令就行了。sqoop提交的就是一个只有map的MR程序。从mysql导入到h原创 2021-10-31 16:16:52 · 1294 阅读 · 0 评论 -
提倡移动计算,但是移动数据也存在
原创 2021-06-02 13:54:11 · 117 阅读 · 0 评论 -
大数据中各种压缩格式性能对比
目录原创 2021-04-20 18:07:57 · 671 阅读 · 3 评论 -
关于MapReduce的一些面试题
目录一.MapReduce的执行过程二.其实并不简单的WordCount一.MapReduce的执行过程官方描述:map端merge是多路归并reduce端merge是两路归并自己描述:二.其实并不简单的WordCount@Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { // 把value对应原创 2021-04-13 10:10:37 · 938 阅读 · 0 评论 -
Hadoop3.1.4(apache发行版)HA搭建时遇到的问题及解决方案
目录一.端口占用问题二.权限问题三.缺包或找不到主类问题四.目录变文件问题五.java空指针问题主要参照的两篇博客:Hadoop3.2.0使用详解.hadoop3.1.0 HA高可用完全分布式集群的安装部署(详细教程).一.端口占用问题2021-01-02 19:16:35,007 INFO org.apache.hadoop.metrics2.impl.MetricsSystemImpl: Stopping JournalNode metrics system...2021-01-02 19:原创 2021-01-03 16:17:52 · 1149 阅读 · 0 评论