大数据
Julian Win
这个作者很懒,什么都没留下…
展开
-
RDD知识总结
创建RDD的两种方式? 1.并行化驱动程序中的现有集合(调用SparkContext的parallelize()方法) 2.引用外部存储系统中的数据集(调用SparkContext的testFile()等方法)Spark如何确保宕机后快速恢复? Spark以RDD作为操作单元,RDD只能从持久存储或通过Transformations操作产生,相比于分布式共享内存(DS...原创 2018-08-21 10:42:08 · 359 阅读 · 0 评论 -
理解RDD的reduceByKey与groupByKey
数据准备val words = Array("a","a","b","c","c")val conf = new SparkConf().setAppName("word-count").setMaster("local");val sc = new SparkContext(conf)val rdd = sc.parallelize(words)red原创 2018-08-26 18:44:28 · 2203 阅读 · 0 评论 -
问题描述:hbase shell启动失败
问题描述[ERROR] Terminal initialization failed; falling back to unsupportedjava.lang.IncompatibleClassChangeError: Found class jline.Terminal, but interface was expected at jline.TerminalFactor...原创 2018-08-18 20:41:49 · 1588 阅读 · 1 评论 -
解决org.apache.zookeeper.KeeperException$SessionExpiredException: KeeperErrorCode
问题描述每次一运行MapReduce作业向HBase里面写数据,主节点的HMaster和HRegioServer进程就会挂掉。查看HBase日志发现,WARN [PEWorker-1] coordination.SplitLogManagerCoordination: Failed to check remaining tasksorg.apache.zookeeper.KeeperE...原创 2018-08-18 20:38:55 · 20833 阅读 · 0 评论 -
解决:Yarn不能启动,没有ResourceManager
用start-yarn.sh命令之后,刚开始有ResourceManager进程,一会儿该进程就被关闭了。查看日志发现:INFO org.apache.hadoop.service.AbstractService: Service org.apache.hadoop.yarn.server.resourcemanager.ResourceTrackerService failed in s...原创 2018-08-15 11:05:16 · 10702 阅读 · 1 评论 -
hbase集群错误:WARN [Thread-15] hdfs.DFSClient: DataStreamer Exception
org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /hbase/.tmp/hbase.version could only be replicated to 0 nodes instead of minReplication (=1). There are 0 datanode(s) running and no n...原创 2018-08-10 15:20:29 · 2980 阅读 · 0 评论 -
配置集群时间同步
时间同步需要安装网络时间协议ntp(Network Time Protocol)1、查看系统中是否已安装ntp rpm -qa|grep ntp2、安装ntp: yum -y install ntp3、修改/etc/ntp.conf 按下图所示删除和添加注释 最后加上下图所示语句 3、修改/etc/sysconfig/ntpd 向里面添加SYNC_HWCLOCK=y...原创 2018-08-10 13:18:50 · 930 阅读 · 0 评论 -
shell脚本——xsync
xsync脚本基于rsync工具,rsync 远程同步工具,主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点,它只是拷贝文件不同的部分,因而减少了网络负担。 rsync -rvl $pdir/$fname $user@hadoop$host:$pdir 常用参数: -r, –recursive 对子目录以递归模式处理 -R, –relativ...原创 2018-08-05 18:09:08 · 17457 阅读 · 0 评论 -
解决DataNode不能全部启动问题 org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block
问题描述: FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block pool <registering> (Datanode Uuid unassigned) service to master/192.168.235.129:8020. Exiting. jav...原创 2018-08-05 16:54:45 · 5594 阅读 · 6 评论 -
Nginx: error while loading shared libraries: libpcre.so.1解决
Nginx: error while loading shared libraries: libpcre.so.1解决 Shell代码 [ew69@localhost conf]# /usr/local/nginx/sbin/nginx /usr/local/nginx/sbin/nginx: error while loading ...转载 2018-07-30 13:42:51 · 3664 阅读 · 0 评论 -
解决Exception: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z
问题描述:Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z at org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(N...原创 2018-06-17 15:24:37 · 1883 阅读 · 1 评论 -
解决Input path does not exist:file://
任务提交指令:spark-submit --class orderinversioninspark.RelativeFrequency ~/soft/temp/bigdataAnalysis.jar 2 /input/inputfile.txt /outputfi异常部分信息如下:Exception in thread "main" org.apache.hadoop.mapred.Invali...原创 2018-06-16 18:29:55 · 31645 阅读 · 1 评论 -
Spark基础知识总结
关于Spark Spark是一个快速且通用的集群计算平台,Spark计算速度快,主要应用于时效性要求比较高的场景Spark特点 主要基于内存 Spark在计算的过程中会优先将数据放在内存中,如果内存容量不足的话,Spark也会将数据放在磁盘上或者部分数据放在磁盘上进行计算 迭代式计算 Spark在处理完一个阶段之后,处理的结果可以继...原创 2018-08-29 11:53:04 · 572 阅读 · 0 评论