2014年11月_yongjian_luo

转载 Redis关键点（rehash）<转>

hash table是一种高效的数据结构，被广泛的用在key-value存储中，Redis的dict其实就是一个典型的hash table实现。rehash是在hash table的大小不能满足需求，造成过多hash碰撞后需要进行的扩容hash table的操作，其实通常的做法确实是建立一个额外的hash table，将原来的hash table中的数据在新的数据中进行重新输入，从而生

2014-11-28 16:55:18 606

转载 scala入门<转>

有必要把scala的入门记录下来。scala几要素：1.immutable，scala可以创建immutable的对象，这样在并发编程中，可以不需要使用同步，可以不适用互斥。2.FP，可以提高代码的简洁度和提高编码的效率，有时候编码也更加简单。3.基于JVM，编译成Bytecode，可以和java相互作用。4.基于事件的并发模型5.静态强类型语言，使

2014-11-27 16:09:00 605

转载 Zookeeper的原理介绍<转>

第一章 Zookeeper server1.1 Zookeeper基本原理 1.1.1 Zookeeper的保证l 顺序性，client的updates请求都会根据它发出的顺序被顺序的处理；l 原子性, 一个update操作要么成功要么失败，没有其他可能的结果；l 一致的镜像，client不论

2014-11-25 14:37:03 505

转载 KAFKA分布式消息系统 <转>

Kafka[1]是linkedin用于日志处理的分布式消息队列，linkedin的日志数据容量大，但对可靠性要求不高，其日志数据主要包括用户行为（登录、浏览、点击、分享、喜欢）以及系统运行日志（CPU、内存、磁盘、网络、系统及进程状态）。当前很多的消息队列服务提供可靠交付保证，并默认是即时消费（不适合离线）。高可靠交付对linkedin的日志不是必须的，故可通过降低可靠性来提高性能，同时

2014-11-24 19:20:27 490

转载 kafka<转>

转载自：http://www.cnblogs.com/tangr206/articles/2274845.html基本概念kafka的工作方式和其他MQ基本相同，只是在一些名词命名上有些不同。为了更好的讨论，这里对这些名词做简单解释。通过这些解释应该可以大致了解kafka MQ的工作方式。Producer （P）：就是网kafka发消息的客户端Consumer （C）：从k

2014-11-24 16:45:49 541

转载在eclipse上面搭建Clojure开发运行环境<转>

首先，需要下载并安装一个用于java开发的eclipse。链接地址：eclipse下载然后，将eclipse解压到自定义的路径，比如：d:\eclipse。下面就有两种方法安装Clojure的eclipse插件Counterclockwise：打开eclipse，点击菜单栏“help->Install New Software.

2014-11-12 15:09:55 1537

转载深入理解WeakHashmap<转>

WeakHashmap(一) 查看API文档，WeakHashmap要点如下：1. 以弱键实现的基于哈希表的 Map。在 WeakHashMap 中，当某个键不再正常使用时，将自动移除其条目。更精确地说，对于一个给定的键，其映射的存在并不阻止垃圾回收器对该键的丢弃，这就使该键成为可终止的，被终止，然后被回收。丢弃某个键时，其条目从映射中有效地移除2. WeakHashMa

2014-11-11 17:05:57 565

转载 JVM调优总结 -Xms -Xmx -Xmn -Xss<转>

堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置：java -Xmx3550m -Xms355

2014-11-11 16:05:38 540

转载 Scala 基础语法代码<转>

下面的代码包含了基本的Scala的语法内容。包括：判断，循环代码片段，方法定义，调用。虚拟类，继承，接口，case，package，单例模式[java] view plaincopypackage org.exinglo.scala class LearnScala { } object

2014-11-06 18:22:33 473

转载 spark之scala学习——11步走进scala<转>

scala和java或.NET都可以协同工作。Scala的主编译器，scalac，会生成在jvm上运行的class文件。然而，另一个编辑器则生成能在.NET CLR上运行的二进制文件。scala和java代码可以实现互操作；1. 下载、解压、环境变量；2. 进入shell：[plain] view plaincopyprint?

2014-11-06 11:45:42 715

转载 Spark学习笔记-Streaming-1<转>

Spark Streaming是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是Spark Engine，也就是把Spark Streaming的输入数据按照batch size（如1秒）分成一段一段的数据（Discretized Stream），每一段数据都转换成Spark中的RDD（Resilient Distributed Dataset），然后将Spark Streaming

2014-11-06 11:39:23 817

转载 Scala 基础语法代码<转>

下面的代码包含了基本的Scala的语法内容。包括：判断，循环代码片段，方法定义，调用。虚拟类，继承，接口，case，package，单例模式[java] view plaincopypackage org.exinglo.scala class LearnScala { } object

2014-11-06 11:35:21 563

转载 Spark学习1：基础函数功能解读<转>

Spark已经定义好了一些基本的transformation 和 action的操作，下面我们一探究竟。实例开发：val rdd = sc.parallelize(List(1,2,3,4,5,6)) val mapRdd = rdd.map(_*2) //这是典型的函数式编程mapRdd.collec

2014-11-06 11:19:55 620

转载信息检索（IR）的评价指标介绍 - 准确率、召回率、F1、mAP、ROC、AUC<转>

在信息检索、分类体系中，有一系列的指标，搞清楚这些指标对于评价检索和分类性能非常重要，因此最近根据网友的博客做了一个汇总。准确率、召回率、F1信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate)和准确率(Precision Rate)，召回率也叫查全率，准确率也叫查准率，概念公式: 召回率(Recall) =

2014-11-05 15:19:29 636

转载逻辑回归模型(Logistic Regression, LR)基础<转>

逻辑回归(Logistic Regression, LR)模型其实仅在线性回归的基础上，套用了一个逻辑函数，但也就由于这个逻辑函数，使得逻辑回归模型成为了机器学习领域一颗耀眼的明星，更是计算广告学的核心。本文主要详述逻辑回归模型的基础，至于逻辑回归模型的优化、逻辑回归与计算广告学等，请关注后续文章。1 逻辑回归模型回归是一种极易理解的模型，就相当于y=f(x)，表明自变

2014-11-05 15:07:20 907

转载 Java中文转码的例子<转>

public class HelloWorld{ public static void main(String[] argv){ try{ System.out.println("中文");//1 System.out.println("中文".getBytes());//2 System.out.pr

2014-11-04 11:18:10 646

转载分布式消息系统Kafka初步<转>

终于可以写kafka的文章了，Mina的相关文章我已经做了索引，在我的博客中置顶了，大家可以方便的找到。从这一篇开始分布式消息系统的入门。在我们大量使用分布式数据库、分布式计算集群的时候，是否会遇到这样的一些问题：l 我想分析一下用户行为（pageviews），以便我能设计出更好的广告位l 我想对用户的搜索关键词进行统计，分析出当前的流行趋势。这个很有意思，在经

2014-11-03 16:02:38 540

转载 Libsvm和Liblinear的使用经验谈<转>

Libsvm和Liblinear都是国立台湾大学的Chih-Jen Lin博士开发的，Libsvm主要是用来进行非线性svm 分类器的生成，提出有一段时间了，而Liblinear则是去年才创建的，主要是应对large-scale的data classification，因为linear分类器的训练比非线性分类器的训练计算复杂度要低很多，时间也少很多，而且在large scale data上的性

2014-11-03 15:54:24 622

转载 KAFKA分布式消息系统<转>

Kafka[1]是linkedin用于日志处理的分布式消息队列，linkedin的日志数据容量大，但对可靠性要求不高，其日志数据主要包括用户行为（登录、浏览、点击、分享、喜欢）以及系统运行日志（CPU、内存、磁盘、网络、系统及进程状态）。当前很多的消息队列服务提供可靠交付保证，并默认是即时消费（不适合离线）。高可靠交付对linkedin的日志不是必须的，故可通过降低可靠性来提高性能，同时

2014-11-03 15:08:16 511

转载 svm算法<转>

又有很长的一段时间没有更新博客了，距离上次更新已经有两个月的时间了。其中一个很大的原因是，不知道写什么好-_-，最近一段时间看了看关于SVM(Support Vector Machine)的文章，觉得SVM是一个非常有趣，而且自成一派的方向，所以今天准备写一篇关于关于SVM的文章。关于SVM的论文、书籍都非常的多，引用强哥的话“SVM是让应用数学家真正得到应用的一种算法”。SVM对于大部分

2014-11-02 15:11:05 554

yongjian_luo的专栏

转载 Redis关键点（rehash）<转>

转载 scala入门<转>

转载 Zookeeper的原理介绍<转>

转载 KAFKA分布式消息系统 <转>

转载 kafka<转>

转载在eclipse上面搭建Clojure开发运行环境<转>

转载深入理解WeakHashmap<转>

转载 JVM调优总结 -Xms -Xmx -Xmn -Xss<转>

转载 Scala 基础语法代码<转>

转载 spark之scala学习——11步走进scala<转>

转载 Spark学习笔记-Streaming-1<转>

转载 Scala 基础语法代码<转>

转载 Spark学习1：基础函数功能解读<转>

转载信息检索（IR）的评价指标介绍 - 准确率、召回率、F1、mAP、ROC、AUC<转>

转载逻辑回归模型(Logistic Regression, LR)基础<转>

转载 Java中文转码的例子<转>

转载分布式消息系统Kafka初步<转>

转载 Libsvm和Liblinear的使用经验谈<转>

转载 KAFKA分布式消息系统<转>

转载 svm算法<转>

clementine的中文教程

clementine基础培训一

Hbase入门与使用

Hadoop_eclipse-plugin编译方法

空空如也