2018年08月_Julian Win

原创 Spark基础知识总结

关于Spark Spark是一个快速且通用的集群计算平台，Spark计算速度快，主要应用于时效性要求比较高的场景Spark特点主要基于内存 Spark在计算的过程中会优先将数据放在内存中，如果内存容量不足的话，Spark也会将数据放在磁盘上或者部分数据放在磁盘上进行计算迭代式计算 Spark在处理完一个阶段之后，处理的结果可以继...

2018-08-29 11:53:04 572

原创理解RDD的reduceByKey与groupByKey

数据准备val words = Array("a","a","b","c","c")val conf = new SparkConf().setAppName("word-count").setMaster("local");val sc = new SparkContext(conf)val rdd = sc.parallelize(words)red

2018-08-26 18:44:28 2203

原创 Scala知识总结

Scala数据类型 Any是所有类的父类 AnyVal是所有基本类型的父类，AnyRef是所有Java里引用类型和所有自定义Scala类的父类 Null是所有引用类型的子类，Nothing是所有Scala类的子类数值类型:byte, short, int, long, double, float 布尔类型:true, flase 字符(串)类型...

2018-08-25 22:16:01 408

原创归并排序算法

算法思想该算法是采用分治法（Divide and Conquer）的一个非常典型的应用。将已有序的子序列合并，得到完全有序的序列；即先使每个子序列有序，再使子序列段间有序。假设初始序列含有n个记录，则可看成是n个有序的子序列，每个子序列的长度为1，然后两两合并，得到⌈n/2⌉个长度为2或1的有序子序列；在两两合并，……，如此重复，知道得到一个长度为n的有序序列为...

2018-08-23 20:42:53 3300

原创快速排序算法

快速排序的基本思想通过一趟排序将要排序的数据分割成独立的两部分，其中一部分的所有数据都比另外一部分的所有数据都要小，然后再按此方法对这两部分数据分别进行快速排序，整个排序过程可以递归进行，以此达到整个数据变成有序序列。图解代码(Java版)public void quickSort(int[] arr, int start, int end) { ...

2018-08-23 11:47:02 142

原创 RDD知识总结

创建RDD的两种方式？ 1.并行化驱动程序中的现有集合(调用SparkContext的parallelize()方法) 2.引用外部存储系统中的数据集(调用SparkContext的testFile()等方法)Spark如何确保宕机后快速恢复？ Spark以RDD作为操作单元，RDD只能从持久存储或通过Transformations操作产生，相比于分布式共享内存（DS...

2018-08-21 10:42:08 359

原创问题描述：hbase shell启动失败

问题描述[ERROR] Terminal initialization failed; falling back to unsupportedjava.lang.IncompatibleClassChangeError: Found class jline.Terminal, but interface was expected at jline.TerminalFactor...

2018-08-18 20:41:49 1588 1

原创解决org.apache.zookeeper.KeeperException$SessionExpiredException: KeeperErrorCode

问题描述每次一运行MapReduce作业向HBase里面写数据，主节点的HMaster和HRegioServer进程就会挂掉。查看HBase日志发现，WARN [PEWorker-1] coordination.SplitLogManagerCoordination: Failed to check remaining tasksorg.apache.zookeeper.KeeperE...

2018-08-18 20:38:55 20830

原创 Shell脚本(remove-sufixes.sh)—去掉指定文件夹下所有文件的文件名后缀

#!/bin/shpath=/usr/soft_r/nginx/logs/flumefiles=$(ls $path)for filename in $filesdo mv /usr/soft_r/nginx/logs/flume/$filename /usr/soft_r/nginx/logs/flume/${filename%.*}done

2018-08-16 21:27:42 2513

原创解决:Yarn不能启动，没有ResourceManager

用start-yarn.sh命令之后，刚开始有ResourceManager进程，一会儿该进程就被关闭了。查看日志发现：INFO org.apache.hadoop.service.AbstractService: Service org.apache.hadoop.yarn.server.resourcemanager.ResourceTrackerService failed in s...

2018-08-15 11:05:16 10701 1

原创 hbase集群错误：WARN [Thread-15] hdfs.DFSClient: DataStreamer Exception

org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /hbase/.tmp/hbase.version could only be replicated to 0 nodes instead of minReplication (=1). There are 0 datanode(s) running and no n...

2018-08-10 15:20:29 2979

原创配置集群时间同步

时间同步需要安装网络时间协议ntp(Network Time Protocol)1、查看系统中是否已安装ntp rpm -qa|grep ntp2、安装ntp: yum -y install ntp3、修改/etc/ntp.conf 按下图所示删除和添加注释最后加上下图所示语句 3、修改/etc/sysconfig/ntpd 向里面添加SYNC_HWCLOCK=y...

2018-08-10 13:18:50 930

原创 shell脚本——xsync

xsync脚本基于rsync工具，rsync 远程同步工具，主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点，它只是拷贝文件不同的部分，因而减少了网络负担。 rsync -rvl $pdir/$fname $user@hadoop$host:$pdir 常用参数： -r, –recursive 对子目录以递归模式处理 -R, –relativ...

2018-08-05 18:09:08 17457

原创 shell脚本——xcall

该脚本用于在所有主机上同时执行相同的命令。进入/usr/local/bin目录下，输入vim xcall，向里面添加：#!/bin/shpcount=$#if((pcount==0));then echo no args...; exit;fiecho ==================master==================$@f...

2018-08-05 17:49:39 6502

原创解决DataNode不能全部启动问题 org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block

问题描述： FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block pool <registering> (Datanode Uuid unassigned) service to master/192.168.235.129:8020. Exiting. jav...

2018-08-05 16:54:45 5592 6

perfer258的博客