大数据
湘下农人
尽力而为还是全力以赴
展开
-
经典大数据面试题
1.海量日志数据,提取出某日访问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后...转载 2019-03-29 17:31:00 · 434 阅读 · 0 评论 -
Apache Flink架构安装
一.简介Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。此外,Flink的运行时本身也支持迭代算法的执行二.下载官网地址:https://flink.apache.org/down...转载 2019-04-12 14:04:27 · 183 阅读 · 0 评论 -
Hadoop常见面/笔试题
1.namenode的重要性是什么?namenode的作用在Hadoop中非常重要。它是Hadoop的大脑,主要负责管理系统上的分配块,还为客户提出请求时的数据提供特定地址2.当NameNode关闭时会发生什么?如果NameNode关闭,文件系统将脱机。3.是否可以在不同集群之间复制文件?如果是的话,怎么能做到这一点?是的,可以在多个H...转载 2019-04-09 14:43:37 · 667 阅读 · 0 评论 -
java.sql.SQLException: Could not establish connection to hadoop11:10000/hive: java.net.ConnectExcept
[root@hadoop11 app]# hadoop jar hive_test.jarjava.sql.SQLException: Could not establish connection to hadoop11:10000/hive: java.net.ConnectException: 拒绝连接 at org.apache.hadoop.hive.jdbc.HiveConne...原创 2019-05-04 21:22:15 · 1389 阅读 · 0 评论 -
Hadoop之shuffle
完整地从map task端拉取数据到reduce端。 在跨节点拉取数据时,尽可能地减少对带宽的不必要消耗。 减少磁盘IO对task执行的影响。 优化的地方主要在于减少拉取数据的量及尽量使用内存而不是磁盘。转载地址:https://www.cnblogs.com/sunfie/p/4928662.html...转载 2019-05-07 10:56:38 · 130 阅读 · 0 评论 -
Spark 常见问题
1、WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster uito ensure that workers are registered and have sufficient memory当前的集群的可用资源不能满足应用程序所请求的资源。资源分2类: cores 和 ramCo...转载 2019-05-10 20:57:23 · 271 阅读 · 0 评论