2016年11月_bitcarmanlee

原创 scala中一些常见用法

1.花括号与小括号的区别以下代码的用法，非常常见：val raw = List(("a",1),("b",2),("c",3))val res = raw.map{ case (key,value) => value }.reduce(_ + _)println(res)注意这里如果将map方法的大括号换成小括号，代码会报错。方法中的花括号有2种意思： 1）scala中函数的小括号，可以用

2016-11-30 20:06:36 3895

转载关于Hive数据仓库的那些事儿（一）模式设计

作者李程，北京市种子管理站站长，人称李站长，友盟数据平台Hive数据仓库扛把子工程师。数据仓库的起源可以追溯到计算机与信息系统发展的初期。它是信息技术长期复杂演化的产物，并且直到今天这种演化仍然在继续进行着。而数据仓库容易让人糊涂的地方在于它是一种体系结构，而不是一种技术。这点使得许多技术人员和风投都感到沮丧，因为他们希望的是打好成包的专业技术，而非具有哲学意义的体系架构。本系列旨在于讲述Hiv

2016-11-29 22:57:39 4946

转载 Avro, Protocol Buffers 、Thrift的联系与区别

当想要数据, 比如对象或其他类型的, 存到文件或是通过网络传输, 需要面对的问题是序列化问题对于序列化, 当然各个语言都提供相应的包, 比如, Java serialization, Ruby’s marshal, or Python’s pickle一切都没有问题, 但如果考虑到跨平台和语言, 可以使用Json或XML 如果你无法忍受Json或XML的verbose和parse的效率,

2016-11-27 22:25:41 6224

原创 Output path is shared between the same module error

在 IntelliJ IDEA中想编译运行某个scala文件的时候，IDE报了以下的错误：Error scalac: Output path .../eval/target/test-classes is shared between: Module 'eval' tests, Module 'eval' tests Output path .../eval/target/classes

2016-11-25 10:09:06 4643

1.匿名函数初探Scala 中定义匿名函数的语法很简单，箭头左边是参数列表，右边是函数体，参数的类型是可省略的，Scala 的类型推测系统会推测出参数的类型。使用匿名函数后，我们的代码变得更简洁了。val numIncOne = (x:Int) => x + 1上面的表达式就定义了一个接受一个Int类型输入参数的匿名函数，使用起来也很简单numIncOne(2)2输入为空的匿名函数val print

2016-11-20 23:27:35 3543 1

转载 python中的闭包与装饰器

1.Python中一切皆对象这恐怕是学习Python最有用的一句话。想必你已经知道Python中的list, tuple, dict等内置数据结构，当你执行：alist = [1, 2, 3]时，你就创建了一个列表对象，并且用alist这个变量引用它：当然你也可以自己定义一个类：class House(object): def __init__(self, area, city):

2016-11-20 18:16:03 3753

原创 scala 单例对象伴生对象

1.单例对象Scala中没有静态方法或静态字段，但可以使用object这个语法结构来实现相同的功能。Object与class在语法层面上很相似，除了不能提供构造器参数外，object可以拥有class的所有特性。废话不多说，直接上代码object Singleton { var count = 0 def addCount:Long = { count += 1 count

2016-11-18 17:18:09 1555

原创函数式编程( Functional)与命令式编程( Imperative)对比

1.函数式编程带来的好处函数式编程近些年异军突起，又重新回到了人们的视线，并得到蓬勃发展。总结起来，无外乎如下好处： 1.减少了可变量(Immutable Variable)的声明，程序更为安全。 2.相比命令式编程，少了非常多的状态变量的声明与维护，天然适合高并发多现成并行计算等任务，这也是函数是编程近年又大热的重要原因。 3.代码更为简洁，可读性更强，对强迫症的同学来说是个重大福音。2.函

2016-11-14 14:47:35 14230

转载有史以来最容易理解的控制反转(IoC)与注入依赖(DI)

我们经常会听说IoC，也就是Inversion of Controller，控制反转。事实上，IoC并不是一个新鲜的概念，最早可能是在1988年，由Ralph E. Johnson和Brian Foote在论文Designing Reusable Classes中提出。IoC从字面上来说有两个内容，一个是控制，一个是反转。那么什么是控制呢？又是怎样反转的呢？为了更好的理解，我们用个实例来说明吧。下面

2016-11-13 21:42:09 2581 1

转载 Hbase 设计与开发实战

1.Hbase 概述大数据及 NoSQL 的前世今生传统的关系型数据库处理方式是基于全面的 ACID 保证，遵循 SQL92 的标准表设计模式（范式）和数据类型，基于 SQL 语言的 DML 数据交互方式。长期以来这种基于关系型数据库的 IT 信息化建设中发展良好，但受制于关系型数据库提供的数据模型，对于逐渐出现的，为预先定义模型的数据集，关系型数据库不能很好的工作。越来越多的业务系统需要能够适

2016-11-10 14:07:45 693

原创 scala 类定义构造函数与继承

1.scala中如何定义类scala中定义类的方式很简单class Point(xc:Int,yc:Int)上面这行代码就定义了一个类 1.首先是关键字class 2.其后是类名 Point 3.类名之后的括号中是构造函数的参数列表，这个例子中是类的两个变量xc，yc，且均为Int类型的数据。2.类的构造方法类的定义中可以有多个构造参数。与java中不同的是，scala类名称后直接加上构造函数

2016-11-09 23:52:04 10170 1

转载 spark压缩和序列化相关

1.spark.serializer默认为org.apache.spark.serializer.JavaSerializer, 可选 org.apache.spark.serializer.KryoSerializer, 实际上只要是org.apache.spark.serializer的子类就可以了,不过如果只是应用,大概你不会自己去实现一个的。序列化对于spark应用的性能来说,还是有很大影响

2016-11-08 11:17:09 819

翻译 spark rdd详解二(transformation与action操作）

sparkRdd transformationaction

2016-11-06 16:15:53 3244

原创 spark rdd详解一(rdd入门)

1.rdd简介与许多专有的大数据处理平台不同，Spark建立在统一抽象的RDD之上，使得它可以以基本一致的方式应对不同的大数据处理场景，包括MapReduce，Streaming，SQL，Machine Learning以及Graph等。这即Matei Zaharia所谓的“设计一个通用的编程抽象（Unified Programming Abstraction）。 RDD的全称为Resilient

2016-11-06 14:56:47 3397

原创 spark与hadoop对比

1.hadoop解决了什么问题Hadoop就是解决了大数据（大到一台计算机无法进行存储，一台计算机无法在要求的时间内进行处理）的可靠存储和处理。 HDFS，在由普通PC组成的集群上提供高可靠的文件存储，通过将块保存多个副本的办法解决服务器或硬盘坏掉的问题。 MapReduce，通过简单的Mapper和Reducer的抽象提供一个编程模型，可以在一个由几十台上百台的PC组成的不可靠集群上并发地，分

2016-11-05 22:10:09 9974

转载 hadoop、storm和spark的区别、比较

1、hadoop、Storm该选哪一个？为了区别hadoop和Storm，该部分将回答如下问题： 1.hadoop、Storm各是什么运算 2.Storm为什么被称之为流式计算系统 3.hadoop适合什么场景，什么情况下使用hadoop 4.什么是吞吐量首先整体认识：Hadoop是磁盘级计算，进行计算时，数据在磁盘上，需要读写磁盘；Storm是内存级计算，数据直接通过网络导入内存。读写内存

2016-11-05 21:28:05 24034

原创 chrome导入与导出书签

1.从 Chrome 导出书签1.打开 Chrome。 2.点击右上角的“更多”图标更多。 3.依次选择书签接着书签管理器。 4.在管理器中，点击“整理”菜单。 5.选择导出书签。 Chrome 会将您的书签导出为 HTML 文件，然后您可以将该文件导入到其他浏览器中。2.从Chrome导入书签1.在计算机上打开Chrome。 2.点击右上角的“更多”图标。 3.依次选择书签

2016-11-04 18:11:38 24588

原创 ubuntu下安装win7虚拟机总结

公司后端部门大部分的RD使用的机器都是给预装的ubuntu系统。对于后端程序猿来说，使用ubuntu也无可厚非，毕竟后端的童鞋们大部分时间都在跟服务器跟命令行打交道嘛。但是linux最大的硬伤就是支持的软件远没有windows甚至macos丰富，这不都过了好长的时间一直没在ubuntu下找到好的使用shadowsocks的方法，而且像输入法包括IDE等各种基础设施用起来各种不方便，实在没法忍了，于是

2016-11-04 16:58:26 24478

转载使用VirtualBox在Ubuntu下虚拟Windows XP共享文件夹设置方法(亲测)

1、首先保证虚拟的Windows XP有虚拟光驱(正常安装的都是有的,因为在ubuntu下一般都是用硬盘虚拟安装的)，然后在已经运行起来的Windows XP菜单栏上选择“设备-安装增强功能“，如果不存在，只需下载VBoxGuestAdditions.iso文件，40MB左右，然后将其MV到/usr/share/virtualbox下即可。安装成功以后，立即可以在ubuntu和XP之间共享剪切板

2016-11-04 14:37:23 1058

转载你应该知道的RPC原理

在学校期间大家都写过不少程序，比如写个hello world服务类，然后本地调用下，如下所示。这些程序的特点是服务消费方和服务提供方是本地调用关系。而一旦踏入公司尤其是大型互联网公司就会发现，公司的系统都由成千上万大大小小的服务组成，各服务部署在不同的机器上，由不同的团队负责。这时就会遇到两个问题：1）要搭建一个新服务，免不了需要依赖他人的服务，而现在他人的服务都在远端，怎么调用？2）其它团队要使用

2016-11-01 10:03:12 2521

bitcarmanlee的博客