2017年11月_贾公子

原创 spark分布式框架搭建详细步骤亲测有效

（1）系统搭建：主要参考：http://blog.csdn.net/hit0803107/article/details/52795241 辅助参考： http://blog.csdn.net/thinkpadshi/article/details/45720405 http://blog.csdn.net/renzegis/article/details/40976757 http:/

2017-11-13 15:13:42 501

转载 SSH无密码登录——简洁明白的操作

引自：http://www.dataguru.cn/thread-324474-1-1.html 在有一些文章写SSH无密码登录都写的很复杂，所以在这我重新把自己配置的步骤写下来。在安装Hadoop集群和部署SPARK时不是必须要安装SSH免密码登录的，只是为了方便操作而配置，很多人都误以为这一步是必须的，其实不是。一、目标在组建hadoop集群时，需要多台实体机进行通信（如

2017-11-13 15:05:26 280

转载 hadoop-2.7.１：Error: Cannot find configuration directory: /etc/hadoop

由于配置是hadoop-2.7.１所以后来在启动过程会发现终端执行 ./start-yarn.sh starting yarn daemons Error: Cannot find configuration directory: /etc/hadoop Error: Cannot find configuration directory: /etc/hadoop是找不到目录的原因，通过阅读相

2017-11-13 14:59:27 1919 1

转载格式化namenode时：SHUTDOWN_MSG: Shutting down NameNode at java.net.UnknownHostException: xxx

http://www.cnblogs.com/nattyq/p/3458565.html 原因是hadoop在格式化HDFS的时候，通过hostname命令获取到的主机名在/etc/hosts文件中进行映射的时候，没有找到，也就是名字不一样。这里需要修改一下用户的主机名。查看自己用户的主机名：hostname查看/etc/hosts内容：cat /etc/hosts修改主机名的方法：1.编辑/et

2017-11-13 14:57:25 13449 1

转载 hadoop集群启动jps查看后没有DATANODE

删除data/hadoop/cluster/data/current/VERSION文件后重启即可

2017-11-13 14:50:12 5168 2

原创 CentOS hadoop配置错误Incorrect configuration: namenode address dfs.namenode.servicerpc-address ...

./sbin/start-all.shThis script is Deprecated. Instead use start-dfs.sh and start-yarn.sh 13/09/09 16:50:21 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using bui

2017-11-13 14:47:56 1529

原创 jps 命令使用详解

jps是jdk提供的一个查看当前java进程的小工具，可以看做是JavaVirtual Machine Process Status Tool的缩写。非常简单实用。命令格式：jps [options ] [ hostid ] [options]选项：-q：仅输出VM标识符，不包括classname,jar name,arguments in main method -m：输出m

2017-11-13 14:37:33 2214

原创如何查看linux 操作系统版本

方法一：在终端输入： cat /etc/issue 方法二：在终端输入： sudo lsb_release -a

2017-11-13 14:23:53 281

原创 Scala语言一些注意事项汇总（2）

（1）构造器是按以下顺序执行的： 1. 如果有超类，则先调用超类的构造器 2. 如果有父trait，它会按照继承层次先调用父trait的构造器 2. 如果有多个父trait，则按顺序从左到右执行 3. 所有父类构造器和父trait被构造完之后，才会构造本类（2）trait有自己的构造器，它是无参构造器，不能定义trait带参数的构造器（3）trait除了不具有带参数的构造函数之外，与

2017-11-10 18:26:26 191

原创 Scala语言一些的一些注意事项汇总（1）

（1）外层包无法直接访问内层包（2）scala允许在任何地方进行包的引入，_的意思是引入该包下的所有类和对象（3）在scala中没有public关键字，仅有private 和 protected访问控制符，当一个类成员不加private和protected时，它的访问权限就是public. （4）在java语言中，protected成员不但可以被该类及其子类访问，也可以被同一个包中的其它类

2017-11-08 08:22:13 529

原创关于在idea中建立scala工程无法new scala文件的问题

（1）首先，谈一下建立scala工程的问题，有两种方法一，file–new project–maven-apache scala 二，file–new project–scala–maven/stb (2)无法建立scala文件通常有以下几个原因一，建立的工程不是scala工程二，没有下载scala插件，scala的下载方法为file–setting–plugins搜索scala,然

2017-11-03 10:47:21 6392

原创斯皮尔曼等级相关（Spearman Rank Correlation）

什么是斯皮尔曼等级相关　　斯皮尔曼等级相关是根据等级资料研究两个变量间相关关系的方法。它是依据两列成对等级的各对等级数之差来进行计算的，所以又称为“等级差数法”。　　斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格，只要两个变量的观测值是成对的等级评定资料，或者是由连续变量观测资料转化得到的等级资料，不论两个变量的总体分布形态、样本容量的大小如何，都可以用斯皮尔曼等级相关来进行研究。斯皮尔曼

2017-11-02 17:33:27 46043 1

转载稀疏矩阵存储格式总结+存储效率对比:COO,CSR,DIA,ELL,HYB

转自：https://www.tuicool.com/articles/A3emmqi 稀疏矩阵是指矩阵中的元素大部分是0的矩阵，事实上，实际问题中大规模矩阵基本上都是稀疏矩阵，很多稀疏度在90%甚至99%以上。因此我们需要有高效的稀疏矩阵存储格式。本文总结几种典型的格式：COO,CSR,DIA,ELL,HYB。（1）Coordinate（COO）这是最简单的一种格式，每一个元素需要用一个三元

2017-11-02 16:27:46 1353

原创 spark的使用

一、基础概念： RDD对象： spark的核心对象，文件等加载均转化为RDD对象（SparkContext.textFile(input_file) ） RDD对象属性、方法： map、reduce、flatmap、reducebykey 二、使用 1.声明： from pyspark import SparkContext, SparkConf

2017-11-02 15:43:09 449

贾慧玉的博客