- 博客(25)
- 资源 (3)
- 收藏
- 关注
原创 YARN
1.YARN & Mesos,论集群资源管理所面临的挑战 (1.4.0中,Spark on YARN的classpath问题)2.yarn默认配置3.杀掉YARN上面的SparkSubmit任务4.Lost executor on YARN
2016-01-08 22:01:43 524
原创 Hbase hbase-site.xml参数 性能调优
1.HBase hbase-site.xml 参数 2.Hbae数据库性能调优 3.HBase性能优化方法总结 4.【甘道夫】HBase基本数据操作详解【完整版,绝对精品】 5.Apache HBase ™ Reference Guide 以上5篇都很有帮助1.配置优化:1.zookeeper.session.timeout默认值: 3min(180000ms) 说明: RegionS
2016-01-08 13:33:39 1691
原创 Scala 保留小数
val a = 3.1415926//保留两位小数val b = a.formatted("%.2f")println(b) //3.14或者//已经被废弃的方法val b = format("%.2f",a)
2016-01-28 21:54:43 30322
原创 Scala 第十一章 操作符 and 习题答案
摘自《快学Scala》第十一章0.重点标识符由字母,数字或运算符构成一元和二元操作符其实是方法调用操作符优先级取决于第一个字符,而结合性取决于最后一个字符apply和update方法在对expr(args)表达式求值时被调用提取器从输入中提取元组或值的序列1.标识符一般还是用经典的模式:字母和数字的序列,以字母或下划线开头。2.中置操作符a 标识符 b其中,标识符代表一个带有两个参数的方
2016-01-28 13:26:32 687
原创 Spark saveAsTextFile
当我运行完一个Spark程序想把结果保存为saveAsTextFile, 结果使用hadoop fs -ls la /qy/151231.txt后发现里面有一系列的part,好几千个。 原因: 运行Spark的时候把数据分成了很多份(partition),每个partition都把自己的数据保存在partxxx文件夹。 如果想保存为一份的话,就要: 先collect 或者data.coa
2016-01-27 19:24:01 15944 1
原创 Scala trait 未完待续
摘自《快学Scala》14.trait的背后Scala将trait翻译成JVM的类和接口。只有抽象方法的trait只有抽象方法的trait简单的变成一个Java接口。如:trait Logger{ def log(msg:String)}//被翻译成public interface Logger{ void log(String msg);}trait有具体的方法有具体方法的
2016-01-26 10:10:00 471
原创 Python matplotlib
1.Simple Plotfrom pylab import *t = arange(0.0,2.0,0.01)s = sin(2*pi*t)plot(t,s) # x, y axisxlabel('time (s)')ylabel('voltage (mV)')title('About as simple as it gets, folks')grid(True) #有小方格savef
2016-01-24 21:18:49 1345
原创 快学Scala 第八章习题答案
8.1 扩展如下的BankAccount类新类CheckingAccount对每次存款和取款都收取1美元的手续费class BankAccount(initialBalance:Double){ private var balance = initialBalance def deposit(amount:Double) = {balance += amount;balance} def
2016-01-23 19:57:09 872
原创 Scala Spark 得到最近一天的数据 重点:join
0.数据val data="""user date item1 item21 2015-12-01 14 5.61 2015-12-01 10 0.61 2015-12-02 8 9.41 2015-12-02 90 1.32 2015-12-01 30 0.32 2015-12-01 89 1.22 2015-12
2016-01-22 13:35:17 2668
翻译 Django + mysql
django 支持 MySQL 5.5及以上版本。Django的inspectdb功能使用information_schema, 其中包含所有的数据库schema的详细数据。Django期望数据库支持Unicode(UTF-8编码)。直到MySQL5.5.4为止,MySQL的默认引擎都是MyISAM。MyISAM的主要缺点是不支持事务(transactions)或者强制性的外键限制。另一方面,直到M
2016-01-21 22:14:41 608
原创 Scala 文件和正则表达式 快学Scala 第九章习题答案
0.重点Source.fromFile(…).getLines.toArray 输出文件的所有行Source.fromFile(…).getlines.mkString 以字符串形式输出文件内容将字符串转换为数字,可以用toInt或toDouble方法使用Java的PrintWriter来写入文本文件“正则”.r 是一个Regex对象如果你的正则表达式包含反斜杠或引号,用"""...""
2016-01-18 13:55:16 653
原创 快学Scala 第六章习题答案
6.1 编写一个Conversions对象,加入inchesToCentimeters, gallonsToLiters和milesToKilometers方法object Conversions{ def inchesToCentermeters()={ } def gallonsToLiters()={ } def milesToKilometers()={ }}6.2 前
2016-01-16 21:50:52 550
原创 Scala 对象
摘自《快学Scala》第六章0.重点需要某个类的单个实例时,或者想为其他值或函数找一个可以挂靠的地方时,就会用到object。 * 用对象作为单例或存放工具方法 * 类可以拥有一个同名的伴生对象 * 对象可以扩展类或特质 * 对象的apply方法通常用来构造伴生类的新实例 * 如果不想显式定义main方法,可以用扩展App特质的对象 * 可以通过扩展Enumeration对象来实现枚举1
2016-01-14 22:22:28 602
原创 快学Scala第五章习题答案
5.1 改进5.1节的Counter类,让它不要在Int.MaxValue时变成负数。class Counter{ private var value = Int.MaxValue def increment(){ if(value < Int.MaxValue)value +=1 else value } def current = valu
2016-01-14 16:27:39 1623
原创 快学Scala 第四章习题答案
1.设置一个映射,其中包含你想要的一些装备,以及它们的价格。然后构建另一个映射,采用同一组键,但在价格上打9折。val item = Map(("computer"->4500.0),("keyboard"->291.0))val itemDiscount = for((k,v)<- item) yield(k,v*0.9)2.编写一段程序,从文件中读取单词。用一个可变映射来清点每一个单词出现的频
2016-01-12 15:11:10 1446
原创 快学Scala 第三章习题答案
1.编写一段代码,将a设置为一个n个随机整数的数组,要求随机数介于0(包含)和n(不包含)之间。val n = 100 //n是自己给定的val a = scala.util.Randomval b = new Array[Int](n) // new Array 和 Array 是有区别的for(i <- 0 until b.length){ b(i) = a.nextInt(n
2016-01-11 14:51:21 2264
翻译 Scala 将CSV文件转为RDD
How do I convert csv file to rdd假设csv文件是这种格式:user, topic, hitsom, scala, 120daniel, spark, 803754978, spark, 1我们可以使用第一行来定义一个header class:class SimpleCSVHeader(header:Array[String]) extends Seriali
2016-01-09 16:56:39 7705 1
转载 Scala 的Hbase接口函数
GenTang/spark_hbase/* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with * this work for additional informat
2016-01-08 10:01:50 837
原创 spark 不支持 嵌入RDDs or 用户定义的函数 that refer to other RDDs 【未完待续】
spark does not support nested RDDs or user-defined functions that refer to other RDDs
2016-01-06 15:21:33 672
原创 scala 对大数据量排序求中位数 lookup方法
val rdd=sc.makeRDD(Array(1,8,6,4,9,3,76,4))val sorted = rdd.sortBy(identity).zipWithIndex().map { case (v, idx) => (idx, v)}val count = sorted.count() val median: Double = if (count % 2 == 0) {
2016-01-05 21:44:34 6675
原创 Scala map sorting
1. Scala map sorting对这样一个map根据value的开始值排序:"01" -> List(34,12,14,23),"11" -> List(22,11,34)方法一 scala.collection.immutable.TreeMap此方法经常用来sorted by keyval t = TreeMap("01"->List(34,12,14,23),"11"->List(22
2016-01-05 09:28:51 676
原创 杀掉YARN上面的SparkSubmit任务
yarn application -kill appid //appid不需要引号就可以结束YARN上面跑的出现异常无法关闭的任务了。 :)
2016-01-04 19:34:24 25497 1
翻译 Lost executor on YARN
1. Lost executor on YARN ALS iterationsdebasish83 Q:During the 4th ALS iteration, I am noticing that one of the executor gets disconnected: 14/08/19 23:40:00 ERROR network.ConnectionManager: Correspon
2016-01-03 16:12:12 8353
Spring配置文件集合
2017-09-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人