2017年11月_ITqingliang

11月 10月 09月 08月 07月 06月 05月 04月 03月

原创 Linux awk详细讲解

史上最好用的免费SVN空间简介awk是一个强大的文本分析工具，相对于grep的查找，sed的编辑，awk在其对数据分析并生成报告时，显得尤为强大。简单来说awk就是把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk，未作特别说明，一般指gawk，gawk 是 AWK 的 GNU 版本。awk其名称得自于它的创始人

2017-11-27 19:42:51 494

转载 numpy.logspace用法

现在介绍logspac用于创建等比数列。其实用法差不多，但是有一个特殊的地方需要注意。● 先来看一个例子，我们让开始点为0，结束点为0，元素个数为10，看看输出结果。为什么是这样子？难道不都是0吗？>>> a = np.logspace(0,0,10)>>> aarray([ 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])● 因为logsp

2017-11-23 19:39:02 3696

昨天面试被问到了cache和persist区别，当时只记得是其中一个调用了另一个，但没有回答出二者的不同，所以回来后重新看了源码，算是弄清楚它们的区别了。cache和persist都是用于将一个RDD进行缓存的，这样在之后使用的过程中就不需要重新计算了，可以大大节省程序运行时间。cache和persist的区别基于Spark 1.4.1 的源码，可以看到/** Persist this RDD wi

2017-11-20 08:26:24 692

原创 spark--JVM调优

堆内存存放我们创建的一些对象，有老年代和年轻代。理想情况下，老年代都是放一些生命周期很长的对象，数量应该是很少的，比如数据库连接池。我们在spark task执行算子函数（我们自己写的），可能会创建很多对象，这些对象都是要放入JVM年轻代中的。每一次放对象的时候，都是放入eden区域，和其中一个survivor区域。另外一个survivor区域是空闲的。当eden区域和一个survivor

2017-11-11 15:01:59 378

转载 elasticsearch启动失败

今天在启动elasticsearch遇到了这个问题，然后查到了这篇文章，当我改完之后，还真的是空格的问题。又白白浪费时间啦这里整理几个空格引起的问题.版本是elasticsearch-2.3.0 或者elasticsearch-rtf-masterException in thread “main” SettingsException[Failed to load settings f

2017-11-02 19:18:01 5626 2