自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 资源 (5)
  • 收藏
  • 关注

转载 Redis关键点(rehash)<转>

hash table是一种高效的数据结构,被广泛的用在key-value存储中,Redis的dict其实就是一个典型的hash table实现。rehash是在hash table的大小不能满足需求,造成过多hash碰撞后需要进行的扩容hash table的操作,其实通常的做法确实是建立一个额外的hash table,将原来的hash table中的数据在新的数据中进行重新输入,从而生

2014-11-28 16:55:18 606

转载 scala入门<转>

有必要把scala的入门记录下来。scala几要素:1.immutable,scala可以创建immutable的对象,这样在并发编程中,可以不需要使用同步,可以不适用互斥。2.FP,可以提高代码的简洁度和提高编码的效率,有时候编码也更加简单。3.基于JVM,编译成Bytecode,可以和java相互作用。4.基于事件的并发模型5.静态强类型语言,使

2014-11-27 16:09:00 605

转载 Zookeeper的原理介绍<转>

第一章 Zookeeper server1.1  Zookeeper基本原理 1.1.1    Zookeeper的保证l         顺序性,client的updates请求都会根据它发出的顺序被顺序的处理;l         原子性,  一个update操作要么成功要么失败,没有其他可能的结果;l         一致的镜像,client不论

2014-11-25 14:37:03 505

转载 KAFKA分布式消息系统 <转>

Kafka[1]是linkedin用于日志处理的分布式消息队列,linkedin的日志数据容量大,但对可靠性要求不高,其日志数据主要包括用户行为(登录、浏览、点击、分享、喜欢)以及系统运行日志(CPU、内存、磁盘、网络、系统及进程状态)。 当前很多的消息队列服务提供可靠交付保证,并默认是即时消费(不适合离线)。高可靠交付对linkedin的日志不是必须的,故可通过降低可靠性来提高性能,同时

2014-11-24 19:20:27 490

转载 kafka<转>

转载自:http://www.cnblogs.com/tangr206/articles/2274845.html基本概念kafka的工作方式和其他MQ基本相同,只是在一些名词命名上有些不同。为了更好的讨论,这里对这些名词做简单解释。通过这些解释应该可以大致了解kafka MQ的工作方式。Producer (P):就是网kafka发消息的客户端Consumer (C):从k

2014-11-24 16:45:49 541

转载 在eclipse上面搭建Clojure开发运行环境<转>

首先,需要下载并安装一个用于java开发的eclipse。链接地址:eclipse下载     然后,将eclipse解压到自定义的路径,比如:d:\eclipse。     下面就有两种方法安装Clojure的eclipse插件Counterclockwise: 打开eclipse,点击菜单栏“help->Install New Software.

2014-11-12 15:09:55 1537

转载 深入理解WeakHashmap<转>

WeakHashmap(一) 查看API文档,WeakHashmap要点如下:1. 以弱键 实现的基于哈希表的 Map。在 WeakHashMap 中,当某个键不再正常使用时,将自动移除其条目。更精确地说,对于一个给定的键,其映射的存在并不阻止垃圾回收器对该键的丢弃,这就使该键成为可终止的,被终止,然后被回收。丢弃某个键时,其条目从映射中有效地移除2. WeakHashMa

2014-11-11 17:05:57 565

转载 JVM调优总结 -Xms -Xmx -Xmn -Xss<转>

堆大小设置JVM 中最大堆大小有三方面限制:相关操作系统的数据模型(32-bt还是64-bit)限制;系统的可用虚拟内存限制;系统的可用物理内存限制。32位系统下,一般限制在1.5G~2G;64为操作系统对内存无限制。我在Windows Server 2003 系统,3.5G物理内存,JDK5.0下测试,最大可设置为1478m。典型设置:java -Xmx3550m -Xms355

2014-11-11 16:05:38 540

转载 Scala 基础语法代码<转>

下面的代码包含了基本的Scala的语法内容。包括:判断,循环代码片段,方法定义,调用。 虚拟类,继承,接口,case,package,单例模式[java] view plaincopypackage org.exinglo.scala    class LearnScala {    }    object

2014-11-06 18:22:33 473

转载 spark之scala学习——11步走进scala<转>

scala和java或.NET都可以协同工作。Scala的主编译器,scalac,会生成在jvm上运行的class文件。然而,另一个编辑器则生成能在.NET CLR上运行的二进制文件。scala和java代码可以实现互操作;1. 下载、解压、环境变量;2. 进入shell:[plain] view plaincopyprint?

2014-11-06 11:45:42 715

转载 Spark学习笔记-Streaming-1<转>

Spark Streaming是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是Spark Engine,也就是把Spark Streaming的输入数据按照batch size(如1秒)分成一段一段的数据(Discretized Stream),每一段数据都转换成Spark中的RDD(Resilient Distributed Dataset),然后将Spark Streaming

2014-11-06 11:39:23 817

转载 Scala 基础语法代码<转>

下面的代码包含了基本的Scala的语法内容。包括:判断,循环代码片段,方法定义,调用。 虚拟类,继承,接口,case,package,单例模式[java] view plaincopypackage org.exinglo.scala    class LearnScala {    }    object

2014-11-06 11:35:21 563

转载 Spark学习1: 基础函数功能解读<转>

Spark已经定义好了一些基本的transformation 和 action的操作,下面我们一探究竟。实例开发:val rdd = sc.parallelize(List(1,2,3,4,5,6))  val mapRdd = rdd.map(_*2)  //这是典型的函数式编程mapRdd.collec

2014-11-06 11:19:55 620

转载 信息检索(IR)的评价指标介绍 - 准确率、召回率、F1、mAP、ROC、AUC<转>

在信息检索、分类体系中,有一系列的指标,搞清楚这些指标对于评价检索和分类性能非常重要,因此最近根据网友的博客做了一个汇总。准确率、召回率、F1信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate)和准确率(Precision Rate),召回率也叫查全率,准确率也叫查准率,概念公式:             召回率(Recall)      = 

2014-11-05 15:19:29 636

转载 逻辑回归模型(Logistic Regression, LR)基础<转>

逻辑回归(Logistic Regression, LR)模型其实仅在线性回归的基础上,套用了一个逻辑函数,但也就由于这个逻辑函数,使得逻辑回归模型成为了机器学习领域一颗耀眼的明星,更是计算广告学的核心。本文主要详述逻辑回归模型的基础,至于逻辑回归模型的优化、逻辑回归与计算广告学等,请关注后续文章。1 逻辑回归模型    回归是一种极易理解的模型,就相当于y=f(x),表明自变

2014-11-05 15:07:20 907

转载 Java中文转码的例子<转>

public class HelloWorld{   public static void main(String[] argv){     try{       System.out.println("中文");//1       System.out.println("中文".getBytes());//2       System.out.pr

2014-11-04 11:18:10 646

转载 分布式消息系统Kafka初步<转>

终于可以写kafka的文章了,Mina的相关文章我已经做了索引,在我的博客中置顶了,大家可以方便的找到。从这一篇开始分布式消息系统的入门。在我们大量使用分布式数据库、分布式计算集群的时候,是否会遇到这样的一些问题:l  我想分析一下用户行为(pageviews),以便我能设计出更好的广告位l  我想对用户的搜索关键词进行统计,分析出当前的流行趋势。这个很有意思,在经

2014-11-03 16:02:38 540

转载 Libsvm和Liblinear的使用经验谈<转>

Libsvm和Liblinear都是国立台湾大学的Chih-Jen Lin博士开发的,Libsvm主要是用来进行非线性svm 分类器的生成,提出有一段时间了,而Liblinear则是去年才创建的,主要是应对large-scale的data classification,因为linear分类器的训练比非线性分类器的训练计算复杂度要低很多,时间也少很多,而且在large scale data上的性

2014-11-03 15:54:24 622

转载 KAFKA分布式消息系统<转>

Kafka[1]是linkedin用于日志处理的分布式消息队列,linkedin的日志数据容量大,但对可靠性要求不高,其日志数据主要包括用户行为(登录、浏览、点击、分享、喜欢)以及系统运行日志(CPU、内存、磁盘、网络、系统及进程状态)。 当前很多的消息队列服务提供可靠交付保证,并默认是即时消费(不适合离线)。高可靠交付对linkedin的日志不是必须的,故可通过降低可靠性来提高性能,同时

2014-11-03 15:08:16 511

转载 svm算法<转>

又有很长的一段时间没有更新博客了,距离上次更新已经有两个月的时间了。其中一个很大的原因是,不知道写什么好-_-,最近一段时间看了看关于SVM(Support Vector Machine)的文章,觉得SVM是一个非常有趣,而且自成一派的方向,所以今天准备写一篇关于关于SVM的文章。关于SVM的论文、书籍都非常的多,引用强哥的话“SVM是让应用数学家真正得到应用的一种算法”。SVM对于大部分

2014-11-02 15:11:05 554

clementine的中文教程

clementine的中文教程clementine的中文教程clementine的中文教程clementine的中文教程clementine的中文教程

2013-11-18

clementine基础培训一

clementine基础培训一

2013-11-18

Hbase入门与使用

Hbase入门与使用

2013-07-23

Hadoop_eclipse-plugin编译方法

Hadoop_eclipse-plugin编译方法

2012-12-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除