2015年12月_power0405hf

原创 Scala 文件操作

1.写入文件1.FileWriter专门用于处理文件的字符写入流对象import java.io.FileWriterprintln(Try{ val out = new FileWriter("/home/hadoop3/file/num1.txt",true) for (i <- 0 to 15) out.write(i.toString) out.close()})

2015-12-31 15:17:30 17698 1

原创 Java是如何读到hbase-site.xml 的内容的

Java是如何读到hbase-site.xml 的内容的Java客户端使用的配置信息是被映射在一个HBaseConfiguration 实例中. HBaseConfiguration有一个工厂方法, HBaseConfiguration.create(); 运行这个方法的时候，他会去CLASSPATH,下找hbase-site.xml，读他发现的第一个配置文件的内容。 (这个方法还会去找h

2015-12-30 19:12:18 3255 1

原创 tmp_table_size and max_heap_table_size

MySQL查询缓存设置提高MySQL查询性能

2015-12-30 11:15:37 944

转载 TP FN FP TN

Rachel-Zhang写的TP FN FP TN ROC True Positive （真正, TP）被模型预测为正的正样本；可以称作判断为真的正确率True Negative（真负 , TN）被模型预测为负的负样本；可以称作判断为假的正确率False Positive （假正, FP）被模型预测为正的负样本；可以称作误报率False Negative（假负 , FN）被模型预测为负的正样本

2015-12-28 19:58:36 19547

原创 Scala 继承

摘自《快学Scala》0.重点extends，final关键字和Java中相同重写方法时必须用override只有主构造器可以调用超类的主构造器可以重写字段本章只探讨类继承自另一个类的情况1.扩展类class Employee extends Person{ var salary = 0.0}和Java一样，将类声明为final，就不能被扩展了。2.重写方法Scala中重写一个

2015-12-24 16:27:30 455

翻译 Scala 当用到.contains（） .exists（）的性能问题

SCALA: Which data structures are optimal in which siutations when using “.contains()” or “.exists()”? Q: 当用到”.contains()”或”.exists()”时，哪种数据结构的性能是最好的？比如：val m=Map(1 -> 1, 2 -> 2, 3 -> 3, 4 -> 4)// m

2015-12-21 13:26:08 16334

原创 Scala case类

探索Scala（4）– Case ClassesCase ClassCase class是Scala语言模式匹配功能（pattern match ）的基础。如果类定义的时候加上case关键字，那么它就变成了Case Class.

2015-12-19 22:40:21 1492

原创 Scala List

Scala里List的设计 Scala List Scala中Array和List的区别 Scala API文档——ListScala中列表非常类似于数组，这意味着，一个列表的所有元素都具有相同的类型，但有两个重要的区别。首先，列表是不可变的，这意味着一个列表的元素可以不被分配来改变。第二，列表表示一个链表，而数组是平坦的。// List of Stringsval fruit:List[S

2015-12-18 16:16:37 478

翻译 Scala aggregate

1.Spark函数讲解：aggregate 2.Example of the Scala aggregate function1.Spark函数讲解：aggregate函数原型：def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) => U): U官方文档定义： Aggregate the el

2015-12-17 21:35:54 4098

翻译 Scala StatCounter类

Scala StatCounter1.Instance Constructorsnew StatCounter() //初始化StatCounter()new StatCounter(values:TraversableOnce[Double])//用给定的值实例化StatCounter，TranversableOnce我觉得相当于是个迭代器，指针只能从前往后查看一遍（不能逆行）2.Value

2015-12-16 16:03:28 2011

转载 Spark map flatMap

Spark 中 map 与 flatMap 的区别简而言之，flatMap是在map的基础上合并数据。通过一个实验来看Spark 中 map 与 flatMap 的区别。步骤一：将测试数据放到hdfs上面hadoopdfs -put data1/test1.txt /tmp/test1.txt该测试数据有两行文本：步骤二：在Spark中创建一个RDD来读取hdfs文件/tmp/test1.txt

2015-12-15 16:23:08 973

原创 Scala pair RDD 统计均值，方差等

val conf = new SparkConf().setAppName("hh") conf.setMaster("local[3]") val sc = new SparkContext(conf)val data = sc.textFile("/home/hadoop4/Desktop/i.txt") .map(_.split("\t")).map(f => f.map(

2015-12-15 10:57:49 12720

原创 Scala PrefixFilter

How to read from hbase using sparkTableInputFormat has the following attributes:SCAN_ROW_STARTSCAN_ROW_STOPconf.set(TableInputFormat.SCAN_ROW_START, "startrowkey")conf.set(TableInputFormat.SCAN_ROW_

2015-12-14 22:33:34 868

原创 Scala Spark 求众数

1.数据格式1 2 31 4 54 5 64 7 87 8 910 11 1210 13 1410 1 21 100 10010 11 210 11 21 2 54 7 62.程序val conf = new SparkConf().setAppName("Mode")conf.setMast

2015-12-14 21:53:21 4757

原创 pair RDD groupByKey countByKey countByValue aggregateByKey reduceByKey 测试

val d = sc.makeRDD(Array(1,2,3,4,5,1,3,5))val dd = d.map(x=>(x,1)) //构造pair RDD, dd:RDD[(Int,Int)]1.groupByKeyval dg = dd.groupByKey() //dg :RDD[(Int, Iterable[Int])]val dgc = dg.collectAsMap //d

2015-12-14 19:42:44 8703

原创 Vectors.dense()

import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib.stat.Statistics val rdd = sc.makeRDD(Array(Array(1.0,10.1,2.5),Array(2.0,5.2,3.8))) val rdd2 = sc.makeRDD(Array(1.2

2015-12-12 15:00:49 10432

翻译 Spark Working with Key/Value Pairs

Chapter 4. Working with Key/Value PairsKey/Value RDDs are commonly used to perform aggregations（聚合）,and often we will do some initial ETL(extract, transform, and load 提取，转换和加载) to get our data into a k

2015-12-11 22:35:50 2400

原创 Scala MD5

参考： * MD5 in Scala * MD5 hashing * Scala-MD5 Hash function for Scala console * Scala - converting array to map * Scala,importing class1.MD5//way 1object MD5{ def hash(s:String)={ val

2015-12-10 23:27:12 8238

原创 Scala 包和引入

摘自《快学Scala》0.重点包可以像内部类那样嵌套包路径不是绝对路径包声明链x.y.z并不自动将中间包x和x.y变成可见位于文件顶部不带花括号的包声明在整个文件范围内有效包对象可以持有函数和变量引入语句可以引入包，类和对象引入语句可以出现在任何位置引入语句可以重命名和隐藏特定成员java.lang, scala和Predef 总是被引入包Scala的包和Java的包或者C++的

2015-12-10 22:22:59 1427

原创 HBase master stops with “Connetion Refused” Error

HBase master stops with “Connetion Refused” ErrorHOW TO CONFIGURE HBASE IN PSEUDO DISTRIBUTED MODE ON A SINGLE LINUX BOX If you have successfully configured Hadoop on a single machine in pseudo-distri

2015-12-09 14:15:49 3746

转载 Hbase unable to create new native thread

HBase unable to create new native thread 错误解决方法

2015-12-09 14:05:15 1319

原创 Scala中Array和List的区别

Difference between Array and List in scala Q:什么时候用Array（Buffer）和List（Buffer）? A: Scala中的List是不可变的递归数据（immutable recursive data）,是Scala中的一种基础结构，你应该多用List而不是Array（Array实际上是mutable，不可变（immutable）的Array是

2015-12-09 14:03:49 11220 1

原创 Spark 调优

英文原文：Tuning Spark中文原文：Spark调优 Advanced Garbage Collection(GC) Tuning JVM内存管理的一些基本知识：Java的Heap（堆）空间分为2部分：Young （新生代）和Old（老生代）。Young generation用来保存生命周期较短的对象（short-lived objects）,Old generation用于保存生命周期

2015-12-09 13:07:44 502

原创 Scala JDBC连接mysql

下载JDBC Using Scala with JDBC to connect to MySQL import java.sql.{Connection, DriverManager,ResultSet} /* * insert mysql into hbase */try{ Class.forName("com.mysql.jdbc.Driver")

2015-12-06 21:32:34 1277

原创 HBase 表的创建属性避免热点问题 region split

1.查看建表帮助help 'create'Creates a table. Pass a table name, and a set of column familyspecifications (at least one), and, optionally, table configuration.Column specification can be a simple string (na

2015-12-06 21:19:46 1881 1

原创 Spark executor.memory

参考：1.Setting spark.executor.memory problem2.How to set Spark executor memory?3.How to set Apache Spark Executor memorySetting spark.executor.memory problem问题：在local mode下配置环境出错://出错代码：val conf = new

2015-12-04 21:38:25 6005

转载 Scala spark 向量、矩阵类型

spark向量、矩阵类型

2015-12-04 13:58:00 3145

原创 Scala 映射和元组

摘自《快学Scala》0.重点Scala 有十分易用的语法来创建，查询和遍历映射需要从可变和不可变的映射中做出选择

2015-12-04 13:57:13 755

原创 Linux 查看磁盘空间

1.查看磁盘剩余空间 df -h2.当前文件夹下的磁盘使用情况 du –max-depth=1 -h #当前文件夹下，子文件夹的大小h参数：显示K,M,G等容量单位 du -sh #当前文件夹的总大小 du -h –max-depth = 0–max-depth=0和-s是一样的指定文件夹下的磁盘使用情况 du -sh /opt/oracle 磁盘过大时需

2015-12-04 09:58:25 1552

原创 filter a RDD

How to filter a RDD according to a function based another RDD in Spark? 当输入变得很大时，只有有限的内存，那么应该增加number of splits:val input = List("a,b,c,d","b,c,e","a,c,d","e,g")val splitSize = 10000val numSplits =

2015-12-03 16:32:07 375

原创 Scala Array操作

0.重点长度固定则使用Array，若长度有可能变化则使用ArrayBuffer提供初始值时不要使用new用()来访问元素用for（elem <- arr）来遍历元素用for（elem <- arr if …）… yield …来将原数组转为新数组Scala数组和Java数组可以互操作；用ArrayBuffer，使用scala.collection.JavaConversions中的转换函

2015-12-03 16:02:39 3054

转载 groupByKey reduceByKey

Spark算子：RDD键值转换操作(3)–groupByKey、reduceByKey、reduceByKeyLocally1.groupByKeydef groupByKey():RDD[( K, Iterable[V]) ]def groupByKey(numPartitions:Int):RDD[(K, Iterable[V])]def groupByKey(partitioner:Par

2015-12-03 10:36:10 1182

原创 Scala 控制结构和函数

0.要点if 表达式有值块也有值，是它最后一个表达式的值分号（在绝大多数情况下）不是必需的void类型是Unit避免在函数定义中使用return注意别在函数定义式中漏掉了 =异常的工作方式和Java或C++中基本一样，不同的是你在catch语句中使用“模式匹配”。Scala没有受检异常1.条件表达式if (x > 0) 1 else -1val s = if(x > 0) 1 e

2015-12-02 15:30:29 443

原创 Scala :foldLeft foldRight min max

Scala的foldLeft和foldRight1.foldLeft和foldRight1.foldLeft定义：def foldLeft[B](z:B)(f:(B, A) => B): B={ var acc = z var these = this while (!these.isEmpty) { acc = f(acc, these.head)

2015-12-01 21:29:07 678

原创 Spark Scala 范例

1.处理HDFS日志文件中错误日志val lines = sc.textFile("hdfs://...") //lines is a org.apache.spark.rdd.MappedRDDval errors = lines.filter(_.startsWith("ERROR")) //errors is a org.apache.spark.rdd.FilterRDDerrors.

2015-12-01 19:10:13 625

power0405hf的专栏