bigdata
夜下探戈
Pursue your object, be it what it will, steadily and indefatigably.
展开
-
Error: recoverUnfinalizedSegments failed for required journal
一、问题描述HA按照规划配置好,启动后,NameNode不能正常启动。刚启动的时候 jps 看到了NameNode,但是隔了一两分钟,再看NameNode就不见了。但是测试之后,发现下面2种情况:1)先启动JournalNode,再启动Hdfs,NameNode可以启动并可以正常运行2)使用start-dfs.sh启动,众多服务都启动了,隔两分钟NameNode会退出,再次hado转载 2017-11-06 23:22:18 · 3884 阅读 · 2 评论 -
hadoop wordcount求共同好友代码实现
package com.Practice.SameFriend;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;impor...原创 2018-03-16 22:18:00 · 481 阅读 · 0 评论 -
Spark架构及原理
开发角度原则一:避免创建重复的RDD原则二:尽可能用同一个RDD原则三:对多次使用的RDD进行持久化 如何选择一种最合适的持久化策略 MEMORY_ONLYMEMORY_ONLY_SERMEMORY_AND_DISK_SER不考虑:DISK_ONLY和_2后缀原则四:尽量避免使用shuffle类算子 能不用就不用能不能用非shuffle类的算子去替代非shuffle类的j...原创 2018-04-25 15:43:23 · 371 阅读 · 0 评论 -
RDD原理
RDD概念RDD的内部属性一组分片(Partition),即数据集的基本组成单位计算每个分片的函数RDD之间的依赖关系一个Partitioner,即RDD的分片函数分区列表,存储存取每个Partition的优先位置(preferred location)可选属性可选属性RDD的特点RDD的优点RDD的存储与分区RDD的容错机制Spark计算工作流RDD编程模型...原创 2018-04-25 15:43:53 · 1880 阅读 · 0 评论 -
RDD使用
RDD操作RDD的创建方式RDD的两种操作算子RDD操作RDD的创建方式从Hadoop文件系统(或与Hadoop兼容的其他持久化存储系统,如Hive、Cassandra、HBase)输入(例如HDFS)创建。从父RDD转换得到新RDD。通过parallelize或makeRDD将单机数据创建为分布式RDD。 4.基于DB(Mysql)、NoSQL...原创 2018-04-25 15:44:16 · 530 阅读 · 0 评论 -
Spark架构及原理
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数转载 2018-04-25 15:46:10 · 542 阅读 · 0 评论