hadoop
文章平均质量分 57
_哲
这个作者很懒,什么都没留下…
展开
-
使用windows作为客户端执行hdfs文件操作的时候抛winutils.exe解决方法
今天在使用windows作为客户端执行hdfs文件操作的时候抛了如下异常解决办法1.将你在Linux中使用的hadoop安装包拷贝到windows下一个没有中文没有空格的路径下面去2.在windows上面配置hadoop的环境变量3.将lib/native下的hadoop.dll文件放到 C:\Windows\System32 路径下4.关闭windows重启...原创 2018-10-12 00:47:30 · 887 阅读 · 0 评论 -
hdfs读写流程
HDFS文件写入过程1.client发起文件上传请求 通过RPC和NameNode建立连接,NameNode检查目标文件是否存在,检查父目录是否存在,检查用户是否有权限,返回是否可以上传2.client请求第一个block该传输到那些DataNode服务器上3.NameNode根据配置文件中指定的备份数量及机架感知原理进行文件分配,返回可用的DataNode地址如:A,B,C注:hado...原创 2018-10-12 00:51:09 · 125 阅读 · 0 评论 -
浅谈MapReduce
MapReduce的原理MapReduce是一个分布式计算模型,解决海量数据的计算问题将整个并行计算过程抽象成两个函数map()和reduce()用户只需要实现map()和reduce()函数即可实现分布式计算MapReduce的核心思想是分治map负责分,将一个大的任务分成若干个简单的小任务并行处理,前提是这些小文件可以并行计算,并且之间几乎没有依赖关系reduce负责合,将map处理...原创 2018-10-22 23:23:22 · 277 阅读 · 0 评论 -
Hive的调优
hive调优Fetch抓取(Hive可以避免进行MapReduce)Hive中对某些情况的查询可以不必使用MapReduce计算.例如:SELECT * FROM xxx;在这种情况下,Hive可以简单的读取xxx对应的存储目录下的文件,然后输出查询结果到控制台.在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老...原创 2018-10-22 23:28:12 · 159 阅读 · 0 评论 -
使用Akka实现一个简易版的spark通信框架
架构图具体代码Master类import akka.actor.{Actor, ActorSystem, Props}import com.typesafe.config.ConfigFactoryimport com.zhe.rpc.{HeartBeat, RegisteredMessage, WorkerInfo}import scala.concurrent.duration...原创 2018-11-02 23:00:25 · 171 阅读 · 0 评论 -
对比scala和java编写的spark wordcount程序
使用scala编写spark wordcount程序import org.apache.spark.{SparkConf, SparkContext}object WordCount { def main(args: Array[String]): Unit = { //设置spark的配置文件信息 val sparkConf: SparkConf = new Spa...原创 2018-11-04 22:51:56 · 288 阅读 · 0 评论 -
关于hadoop无法启动namenode的问题
关于hadoop无法启动namenode的问题今天在启动hadoop时发现所有服务都可以启动,唯独NameNode节点启动不来.查看log日志后发现启动报如下错误java.io.IOException: Gap in transactions. Expected to be able to read up until at least txid 1365 but unable to find...原创 2019-04-02 00:45:36 · 2047 阅读 · 0 评论