- 博客(35)
- 资源 (3)
- 收藏
- 关注
原创 Scala 文件操作
1.写入文件1.FileWriter专门用于处理文件的字符写入流对象import java.io.FileWriterprintln(Try{ val out = new FileWriter("/home/hadoop3/file/num1.txt",true) for (i <- 0 to 15) out.write(i.toString) out.close()})
2015-12-31 15:17:30 17698 1
原创 Java是如何读到hbase-site.xml 的内容的
Java是如何读到hbase-site.xml 的内容的Java客户端使用的配置信息是被映射在一个HBaseConfiguration 实例中. HBaseConfiguration有一个工厂方法, HBaseConfiguration.create(); 运行这个方法的时候,他会去CLASSPATH,下找hbase-site.xml,读他发现的第一个配置文件的内容。 (这个方法还会去找h
2015-12-30 19:12:18 3255 1
转载 TP FN FP TN
Rachel-Zhang写的TP FN FP TN ROC True Positive (真正, TP)被模型预测为正的正样本;可以称作判断为真的正确率True Negative(真负 , TN)被模型预测为负的负样本 ;可以称作判断为假的正确率False Positive (假正, FP)被模型预测为正的负样本;可以称作误报率False Negative(假负 , FN)被模型预测为负的正样本
2015-12-28 19:58:36 19547
原创 Scala 继承
摘自《快学Scala》0.重点extends,final关键字和Java中相同重写方法时必须用override只有主构造器可以调用超类的主构造器可以重写字段本章只探讨类继承自另一个类的情况1.扩展类class Employee extends Person{ var salary = 0.0}和Java一样,将类声明为final,就不能被扩展了。2.重写方法Scala中重写一个
2015-12-24 16:27:30 455
翻译 Scala 当用到.contains() .exists()的性能问题
SCALA: Which data structures are optimal in which siutations when using “.contains()” or “.exists()”? Q: 当用到”.contains()”或”.exists()”时,哪种数据结构的性能是最好的? 比如:val m=Map(1 -> 1, 2 -> 2, 3 -> 3, 4 -> 4)// m
2015-12-21 13:26:08 16334
原创 Scala case类
探索Scala(4)– Case ClassesCase ClassCase class是Scala语言模式匹配功能(pattern match )的基础。如果类定义的时候加上case关键字,那么它就变成了Case Class.
2015-12-19 22:40:21 1492
原创 Scala List
Scala里List的设计 Scala List Scala中Array和List的区别 Scala API文档——ListScala中列表非常类似于数组,这意味着,一个列表的所有元素都具有相同的类型,但有两个重要的区别。首先,列表是不可变的,这意味着一个列表的元素可以不被分配来改变。第二,列表表示一个链表,而数组是平坦的。// List of Stringsval fruit:List[S
2015-12-18 16:16:37 478
翻译 Scala aggregate
1.Spark函数讲解:aggregate 2.Example of the Scala aggregate function1.Spark函数讲解:aggregate函数原型:def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) => U): U官方文档定义: Aggregate the el
2015-12-17 21:35:54 4098
翻译 Scala StatCounter类
Scala StatCounter1.Instance Constructorsnew StatCounter() //初始化StatCounter()new StatCounter(values:TraversableOnce[Double])//用给定的值实例化StatCounter,TranversableOnce我觉得相当于是个迭代器,指针只能从前往后查看一遍(不能逆行)2.Value
2015-12-16 16:03:28 2011
转载 Spark map flatMap
Spark 中 map 与 flatMap 的区别 简而言之,flatMap是在map的基础上合并数据。通过一个实验来看Spark 中 map 与 flatMap 的区别。步骤一:将测试数据放到hdfs上面hadoopdfs -put data1/test1.txt /tmp/test1.txt该测试数据有两行文本:步骤二:在Spark中创建一个RDD来读取hdfs文件/tmp/test1.txt
2015-12-15 16:23:08 973
原创 Scala pair RDD 统计均值,方差等
val conf = new SparkConf().setAppName("hh") conf.setMaster("local[3]") val sc = new SparkContext(conf)val data = sc.textFile("/home/hadoop4/Desktop/i.txt") .map(_.split("\t")).map(f => f.map(
2015-12-15 10:57:49 12720
原创 Scala PrefixFilter
How to read from hbase using sparkTableInputFormat has the following attributes:SCAN_ROW_STARTSCAN_ROW_STOPconf.set(TableInputFormat.SCAN_ROW_START, "startrowkey")conf.set(TableInputFormat.SCAN_ROW_
2015-12-14 22:33:34 868
原创 Scala Spark 求众数
1.数据格式1 2 31 4 54 5 64 7 87 8 910 11 1210 13 1410 1 21 100 10010 11 210 11 21 2 54 7 62.程序val conf = new SparkConf().setAppName("Mode")conf.setMast
2015-12-14 21:53:21 4757
原创 pair RDD groupByKey countByKey countByValue aggregateByKey reduceByKey 测试
val d = sc.makeRDD(Array(1,2,3,4,5,1,3,5))val dd = d.map(x=>(x,1)) //构造pair RDD, dd:RDD[(Int,Int)]1.groupByKeyval dg = dd.groupByKey() //dg :RDD[(Int, Iterable[Int])]val dgc = dg.collectAsMap //d
2015-12-14 19:42:44 8703
原创 Vectors.dense()
import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib.stat.Statistics val rdd = sc.makeRDD(Array(Array(1.0,10.1,2.5),Array(2.0,5.2,3.8))) val rdd2 = sc.makeRDD(Array(1.2
2015-12-12 15:00:49 10432
翻译 Spark Working with Key/Value Pairs
Chapter 4. Working with Key/Value PairsKey/Value RDDs are commonly used to perform aggregations(聚合),and often we will do some initial ETL(extract, transform, and load 提取,转换和加载) to get our data into a k
2015-12-11 22:35:50 2400
原创 Scala MD5
参考: * MD5 in Scala * MD5 hashing * Scala-MD5 Hash function for Scala console * Scala - converting array to map * Scala,importing class1.MD5//way 1object MD5{ def hash(s:String)={ val
2015-12-10 23:27:12 8238
原创 Scala 包和引入
摘自《快学Scala》0.重点包可以像内部类那样嵌套包路径不是绝对路径包声明链x.y.z并不自动将中间包x和x.y变成可见位于文件顶部不带花括号的包声明在整个文件范围内有效包对象可以持有函数和变量引入语句可以引入包,类和对象引入语句可以出现在任何位置引入语句可以重命名和隐藏特定成员java.lang, scala和Predef 总是被引入包Scala的包和Java的包或者C++的
2015-12-10 22:22:59 1427
原创 HBase master stops with “Connetion Refused” Error
HBase master stops with “Connetion Refused” ErrorHOW TO CONFIGURE HBASE IN PSEUDO DISTRIBUTED MODE ON A SINGLE LINUX BOX If you have successfully configured Hadoop on a single machine in pseudo-distri
2015-12-09 14:15:49 3746
转载 Hbase unable to create new native thread
HBase unable to create new native thread 错误解决方法
2015-12-09 14:05:15 1319
原创 Scala中Array和List的区别
Difference between Array and List in scala Q:什么时候用Array(Buffer)和List(Buffer)? A: Scala中的List是不可变的递归数据(immutable recursive data),是Scala中的一种基础结构,你应该多用List而不是Array(Array实际上是mutable,不可变(immutable)的Array是
2015-12-09 14:03:49 11220 1
原创 Spark 调优
英文原文:Tuning Spark中文原文:Spark调优 Advanced Garbage Collection(GC) Tuning JVM内存管理的一些基本知识:Java的Heap(堆)空间分为2部分:Young (新生代)和Old(老生代)。Young generation用来保存生命周期较短的对象(short-lived objects),Old generation用于保存生命周期
2015-12-09 13:07:44 502
原创 Scala JDBC连接mysql
下载JDBC Using Scala with JDBC to connect to MySQL import java.sql.{Connection, DriverManager,ResultSet} /* * insert mysql into hbase */try{ Class.forName("com.mysql.jdbc.Driver")
2015-12-06 21:32:34 1277
原创 HBase 表的创建 属性 避免热点问题 region split
1.查看建表帮助help 'create'Creates a table. Pass a table name, and a set of column familyspecifications (at least one), and, optionally, table configuration.Column specification can be a simple string (na
2015-12-06 21:19:46 1881 1
原创 Spark executor.memory
参考:1.Setting spark.executor.memory problem2.How to set Spark executor memory?3.How to set Apache Spark Executor memorySetting spark.executor.memory problem问题: 在local mode下配置环境出错://出错代码:val conf = new
2015-12-04 21:38:25 6005
原创 Linux 查看磁盘空间
1.查看磁盘剩余空间 df -h2.当前文件夹下的磁盘使用情况 du –max-depth=1 -h #当前文件夹下,子文件夹的大小h参数:显示K,M,G等容量单位 du -sh #当前文件夹的总大小 du -h –max-depth = 0–max-depth=0和-s是一样的指定文件夹下的磁盘使用情况 du -sh /opt/oracle 磁盘过大时需
2015-12-04 09:58:25 1552
原创 filter a RDD
How to filter a RDD according to a function based another RDD in Spark? 当输入变得很大时,只有有限的内存,那么应该增加number of splits:val input = List("a,b,c,d","b,c,e","a,c,d","e,g")val splitSize = 10000val numSplits =
2015-12-03 16:32:07 375
原创 Scala Array操作
0.重点长度固定则使用Array,若长度有可能变化则使用ArrayBuffer提供初始值时不要使用new用()来访问元素用for(elem <- arr)来遍历元素用for(elem <- arr if …)… yield …来将原数组转为新数组Scala数组和Java数组可以互操作;用ArrayBuffer,使用scala.collection.JavaConversions中的转换函
2015-12-03 16:02:39 3054
转载 groupByKey reduceByKey
Spark算子:RDD键值转换操作(3)–groupByKey、reduceByKey、reduceByKeyLocally1.groupByKeydef groupByKey():RDD[( K, Iterable[V]) ]def groupByKey(numPartitions:Int):RDD[(K, Iterable[V])]def groupByKey(partitioner:Par
2015-12-03 10:36:10 1182
原创 Scala 控制结构和函数
0.要点if 表达式有值块也有值,是它最后一个表达式的值分号(在绝大多数情况下)不是必需的void类型是Unit避免在函数定义中使用return注意别在函数定义式中漏掉了 =异常的工作方式和Java或C++中基本一样,不同的是你在catch语句中使用“模式匹配”。Scala没有受检异常1.条件表达式if (x > 0) 1 else -1val s = if(x > 0) 1 e
2015-12-02 15:30:29 443
原创 Scala :foldLeft foldRight min max
Scala的foldLeft和foldRight1.foldLeft和foldRight1.foldLeft定义:def foldLeft[B](z:B)(f:(B, A) => B): B={ var acc = z var these = this while (!these.isEmpty) { acc = f(acc, these.head)
2015-12-01 21:29:07 678
原创 Spark Scala 范例
1.处理HDFS日志文件中错误日志val lines = sc.textFile("hdfs://...") //lines is a org.apache.spark.rdd.MappedRDDval errors = lines.filter(_.startsWith("ERROR")) //errors is a org.apache.spark.rdd.FilterRDDerrors.
2015-12-01 19:10:13 625
Spring配置文件集合
2017-09-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人