bitcarmanlee的博客

专注算法与数据,正在计划写机器学习方面的数学书籍,有出版社的朋友请联系。微信1833133594...

scala中一些常见用法

1.花括号与小括号的区别以下代码的用法,非常常见:val raw = List(("a",1),("b",2),("c",3)) val res = raw.map{ case (key,value) => value }.redu...

2016-11-30 20:06:36

阅读数 3255

评论数 0

关于Hive数据仓库的那些事儿(一)模式设计

作者李程,北京市种子管理站站长,人称李站长,友盟数据平台Hive数据仓库扛把子工程师。数据仓库的起源可以追溯到计算机与信息系统发展的初期。它是信息技术长期复杂演化的产物,并且直到今天这种演化仍然在继续进行着。而数据仓库容易让人糊涂的地方在于它是一种体系结构,而不是一种技术。这点使得许多技术人员和风...

2016-11-29 22:57:39

阅读数 3574

评论数 0

Avro, Protocol Buffers 、Thrift的联系与区别

当想要数据, 比如对象或其他类型的, 存到文件或是通过网络传输, 需要面对的问题是序列化问题 对于序列化, 当然各个语言都提供相应的包, 比如, Java serialization, Ruby’s marshal, or Python’s pickle一切都没有问题, 但如果考虑到跨平台和语...

2016-11-27 22:25:41

阅读数 3616

评论数 0

Output path is shared between the same module error

在 IntelliJ IDEA中想编译运行某个scala文件的时候,IDE报了以下的错误:Error scalac: Output path .../eval/target/test-classes is shared between: Module 'eval' tests, Module 'e...

2016-11-25 10:09:06

阅读数 2090

评论数 0

scala 匿名函数

1.匿名函数初探Scala 中定义匿名函数的语法很简单,箭头左边是参数列表,右边是函数体,参数的类型是可省略的,Scala 的类型推测系统会推测出参数的类型。使用匿名函数后,我们的代码变得更简洁了。val numIncOne = (x:Int) => x + 1上面的表达式就定义了一个接受一...

2016-11-20 23:27:35

阅读数 1747

评论数 0

python中的闭包与装饰器

1.Python中一切皆对象这恐怕是学习Python最有用的一句话。想必你已经知道Python中的list, tuple, dict等内置数据结构,当你执行:alist = [1, 2, 3]时,你就创建了一个列表对象,并且用alist这个变量引用它: 当然你也可以自己定义一个类:class...

2016-11-20 18:16:03

阅读数 2063

评论数 0

scala 单例对象 伴生对象

1.单例对象Scala中没有静态方法或静态字段,但可以使用object这个语法结构来实现相同的功能。Object与class在语法层面上很相似,除了不能提供构造器参数外,object可以拥有class的所有特性。废话不多说,直接上代码object Singleton { var count = ...

2016-11-18 17:18:09

阅读数 1015

评论数 0

函数式编程( Functional)与命令式编程( Imperative)对比

1.函数式编程带来的好处函数式编程近些年异军突起,又重新回到了人们的视线,并得到蓬勃发展。总结起来,无外乎如下好处: 1.减少了可变量(Immutable Variable)的声明,程序更为安全。 2.相比命令式编程,少了非常多的状态变量的声明与维护,天然适合高并发多现成并行计算等任务,这也是...

2016-11-14 14:47:35

阅读数 8154

评论数 0

有史以来最容易理解的控制反转(IoC)与注入依赖(DI)

我们经常会听说IoC,也就是Inversion of Controller,控制反转。事实上,IoC并不是一个新鲜的概念,最早可能是在1988年,由Ralph E. Johnson和Brian Foote在论文Designing Reusable Classes中提出。IoC从字面上来说有两个内容...

2016-11-13 21:42:09

阅读数 1708

评论数 0

Hbase 设计与开发实战

1.Hbase 概述大数据及 NoSQL 的前世今生 传统的关系型数据库处理方式是基于全面的 ACID 保证,遵循 SQL92 的标准表设计模式(范式)和数据类型,基于 SQL 语言的 DML 数据交互方式。长期以来这种基于关系型数据库的 IT 信息化建设中发展良好,但受制于关系型数据库提供的数...

2016-11-10 14:07:45

阅读数 515

评论数 0

scala 类定义构造函数与继承

1.scala中如何定义类scala中定义类的方式很简单class Point(xc:Int,yc:Int)上面这行代码就定义了一个类 1.首先是关键字class 2.其后是类名 Point 3.类名之后的括号中是构造函数的参数列表,这个例子中是类的两个变量xc,yc,且均为Int类型的数据...

2016-11-09 23:52:04

阅读数 7106

评论数 0

spark压缩和序列化相关

1.spark.serializer默认为org.apache.spark.serializer.JavaSerializer, 可选 org.apache.spark.serializer.KryoSerializer, 实际上只要是org.apache.spark.serializer的子类就...

2016-11-08 11:17:09

阅读数 509

评论数 0

spark rdd详解二(transformation与action操作)

sparkRdd transformation action

2016-11-06 16:15:53

阅读数 2424

评论数 0

spark rdd详解一(rdd入门)

1.rdd简介与许多专有的大数据处理平台不同,Spark建立在统一抽象的RDD之上,使得它可以以基本一致的方式应对不同的大数据处理场景,包括MapReduce,Streaming,SQL,Machine Learning以及Graph等。这即Matei Zaharia所谓的“设计一个通用的编程抽象...

2016-11-06 14:56:47

阅读数 2359

评论数 0

spark与hadoop对比

1.hadoop解决了什么问题Hadoop就是解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。 HDFS,在由普通PC组成的集群上提供高可靠的文件存储,通过将块保存多个副本的办法解决服务器或硬盘坏掉的问题。 MapReduce,通过简单的Map...

2016-11-05 22:10:09

阅读数 5907

评论数 0

hadoop、storm和spark的区别、比较

1、hadoop、Storm该选哪一个?为了区别hadoop和Storm,该部分将回答如下问题: 1.hadoop、Storm各是什么运算 2.Storm为什么被称之为流式计算系统 3.hadoop适合什么场景,什么情况下使用hadoop 4.什么是吞吐量首先整体认识:Hadoop是磁盘级...

2016-11-05 21:28:05

阅读数 20840

评论数 0

chrome导入与导出书签

1.从 Chrome 导出书签1.打开 Chrome。 2.点击右上角的“更多”图标 更多。 3.依次选择书签 接着 书签管理器。 4.在管理器中,点击“整理”菜单。 5.选择导出书签。 Chrome 会将您的书签导出为 HTML 文件,然后您可以将该文件导入到其他浏览器中。2.从Chr...

2016-11-04 18:11:38

阅读数 20268

评论数 0

ubuntu下安装win7虚拟机总结

公司后端部门大部分的RD使用的机器都是给预装的ubuntu系统。对于后端程序猿来说,使用ubuntu也无可厚非,毕竟后端的童鞋们大部分时间都在跟服务器跟命令行打交道嘛。但是linux最大的硬伤就是支持的软件远没有windows甚至macos丰富,这不都过了好长的时间一直没在ubuntu下找到好的使...

2016-11-04 16:58:26

阅读数 19083

评论数 0

使用VirtualBox在Ubuntu下虚拟Windows XP共享文件夹设置方法(亲测)

1、首先保证虚拟的Windows XP有虚拟光驱(正常安装的都是有的,因为在ubuntu下一般都是用硬盘虚拟安装的),然后在已经运行起来的Windows XP菜单栏上选择“设备-安装增强功能“,如果不存在,只需下载VBoxGuestAdditions.iso文件,40MB左右,然后将其MV到/us...

2016-11-04 14:37:23

阅读数 682

评论数 0

你应该知道的RPC原理

在学校期间大家都写过不少程序,比如写个hello world服务类,然后本地调用下,如下所示。这些程序的特点是服务消费方和服务提供方是本地调用关系。而一旦踏入公司尤其是大型互联网公司就会发现,公司的系统都由成千上万大大小小的服务组成,各服务部署在不同的机器上,由不同的团队负责。这时就会遇到两个问题...

2016-11-01 10:03:12

阅读数 1723

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭