- 博客(15)
- 问答 (1)
- 收藏
- 关注
原创 Spark基础知识总结
关于Spark Spark是一个快速且通用的集群计算平台,Spark计算速度快,主要应用于时效性要求比较高的场景Spark特点 主要基于内存 Spark在计算的过程中会优先将数据放在内存中,如果内存容量不足的话,Spark也会将数据放在磁盘上或者部分数据放在磁盘上进行计算 迭代式计算 Spark在处理完一个阶段之后,处理的结果可以继...
2018-08-29 11:53:04 572
原创 理解RDD的reduceByKey与groupByKey
数据准备val words = Array("a","a","b","c","c")val conf = new SparkConf().setAppName("word-count").setMaster("local");val sc = new SparkContext(conf)val rdd = sc.parallelize(words)red
2018-08-26 18:44:28 2203
原创 Scala知识总结
Scala数据类型 Any是所有类的父类 AnyVal是所有基本类型的父类,AnyRef是所有Java里引用类型和所有自定义Scala类的父类 Null是所有引用类型的子类,Nothing是所有Scala类的子类 数值类型:byte, short, int, long, double, float 布尔类型:true, flase 字符(串)类型...
2018-08-25 22:16:01 408
原创 归并排序算法
算法思想 该算法是采用分治法(Divide and Conquer)的一个非常典型的应用。将已有序的子序列合并,得到完全有序的序列;即先使每个子序列有序,再使子序列段间有序。 假设初始序列含有n个记录,则可看成是n个有序的子序列,每个子序列的长度为1,然后两两合并,得到⌈n/2⌉个长度为2或1的有序子序列;在两两合并,……,如此重复,知道得到一个长度为n的有序序列为...
2018-08-23 20:42:53 3300
原创 快速排序算法
快速排序的基本思想 通过一趟排序将要排序的数据分割成独立的两部分,其中一部分的所有数据都比另外一部分的所有数据都要小,然后再按此方法对这两部分数据分别进行快速排序,整个排序过程可以递归进行,以此达到整个数据变成有序序列。图解代码(Java版)public void quickSort(int[] arr, int start, int end) { ...
2018-08-23 11:47:02 142
原创 RDD知识总结
创建RDD的两种方式? 1.并行化驱动程序中的现有集合(调用SparkContext的parallelize()方法) 2.引用外部存储系统中的数据集(调用SparkContext的testFile()等方法)Spark如何确保宕机后快速恢复? Spark以RDD作为操作单元,RDD只能从持久存储或通过Transformations操作产生,相比于分布式共享内存(DS...
2018-08-21 10:42:08 359
原创 问题描述:hbase shell启动失败
问题描述[ERROR] Terminal initialization failed; falling back to unsupportedjava.lang.IncompatibleClassChangeError: Found class jline.Terminal, but interface was expected at jline.TerminalFactor...
2018-08-18 20:41:49 1588 1
原创 解决org.apache.zookeeper.KeeperException$SessionExpiredException: KeeperErrorCode
问题描述每次一运行MapReduce作业向HBase里面写数据,主节点的HMaster和HRegioServer进程就会挂掉。查看HBase日志发现,WARN [PEWorker-1] coordination.SplitLogManagerCoordination: Failed to check remaining tasksorg.apache.zookeeper.KeeperE...
2018-08-18 20:38:55 20830
原创 Shell脚本(remove-sufixes.sh)—去掉指定文件夹下所有文件的文件名后缀
#!/bin/shpath=/usr/soft_r/nginx/logs/flumefiles=$(ls $path)for filename in $filesdo mv /usr/soft_r/nginx/logs/flume/$filename /usr/soft_r/nginx/logs/flume/${filename%.*}done
2018-08-16 21:27:42 2513
原创 解决:Yarn不能启动,没有ResourceManager
用start-yarn.sh命令之后,刚开始有ResourceManager进程,一会儿该进程就被关闭了。查看日志发现:INFO org.apache.hadoop.service.AbstractService: Service org.apache.hadoop.yarn.server.resourcemanager.ResourceTrackerService failed in s...
2018-08-15 11:05:16 10701 1
原创 hbase集群错误:WARN [Thread-15] hdfs.DFSClient: DataStreamer Exception
org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /hbase/.tmp/hbase.version could only be replicated to 0 nodes instead of minReplication (=1). There are 0 datanode(s) running and no n...
2018-08-10 15:20:29 2979
原创 配置集群时间同步
时间同步需要安装网络时间协议ntp(Network Time Protocol)1、查看系统中是否已安装ntp rpm -qa|grep ntp2、安装ntp: yum -y install ntp3、修改/etc/ntp.conf 按下图所示删除和添加注释 最后加上下图所示语句 3、修改/etc/sysconfig/ntpd 向里面添加SYNC_HWCLOCK=y...
2018-08-10 13:18:50 930
原创 shell脚本——xsync
xsync脚本基于rsync工具,rsync 远程同步工具,主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点,它只是拷贝文件不同的部分,因而减少了网络负担。 rsync -rvl $pdir/$fname $user@hadoop$host:$pdir 常用参数: -r, –recursive 对子目录以递归模式处理 -R, –relativ...
2018-08-05 18:09:08 17457
原创 shell脚本——xcall
该脚本用于在所有主机上同时执行相同的命令。 进入/usr/local/bin目录下,输入vim xcall,向里面添加:#!/bin/shpcount=$#if((pcount==0));then echo no args...; exit;fiecho ==================master==================$@f...
2018-08-05 17:49:39 6502
原创 解决DataNode不能全部启动问题 org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block
问题描述: FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block pool <registering> (Datanode Uuid unassigned) service to master/192.168.235.129:8020. Exiting. jav...
2018-08-05 16:54:45 5592 6
空空如也
pyinstaller资源文件打包
2017-11-27
TA创建的收藏夹 TA关注的收藏夹
TA关注的人