2017年06月_raintungli

12月 09月 08月 07月 06月 05月 04月 03月 02月

原创大数据：Spark 算子（一）排序算子sortByKey来看大数据平台下如何做排序

1 前言在前面一系列博客中，特别在Shuffle博客系列中，曾今描述过在生成ShuffleWrite的文件的时候，对每个partition会先进行排序并spill到文件中，最后合并成ShuffleWrite的文件，也就是每个Partition里的内容已经进行了排序，在最后的action操作的时候需要对每个executor生成的shuffle文件相同的Partition进行合并，完成Action的操

2017-06-26 16:42:13 8876

原创大数据：Spark mlib(二) Naive bayes朴素贝叶斯分类之多元朴素贝叶斯源码分析

1. 什么是朴素贝叶斯朴素贝叶斯是一种构建分类器，该分类器基于一个理论：所有朴素贝叶斯分类器都假定样本每个特征与其他特征都不相关2. 朴素贝叶斯概率模型概率模型分类器是一个条件概率模型：（独立的类别特征C有若干类别，条件依赖于若干特征变量F1,F2,...,Fn）贝叶斯定理：我们可以看到分母并不依赖于C，而且特征Fn的概率是给定的，分母可以认为是一个常数。这样分子就等价于联合分布模

2017-06-23 14:36:26 3099

原创大数据：Spark mlib(一) KMeans聚类算法源码分析

1. 聚类1.1 什么是聚类？所谓聚类问题，就是给定一个元素集合D，其中每个元素具有n个可观察属性，使用算法将集合D划分成k个子集，要求每个子集内部的元素之间相异度尽可能低，而不同子集的元素相异度尽可能高，其中每个子集叫做一个簇。1.2 KMeans 聚类算法K-Means聚类算法主要分为如下几个步骤：从D中随机取k个元素，作为k个簇的各自的中心分别计算剩下的元素到k个簇中心的相异度，将这些元素分

2017-06-09 12:22:17 6469

jdk1.6.23 libsaproc.so linux 下amd64架构

详细请看： Java 工具（jmap,jstack）在linux上的源码分析(五) -F 参数的bug的解决lib （http://blog.csdn.net/raintungli/article/details/7245709）自己编译的，测试能够通过

2012-02-15

Linux C 编程一站式学习

介绍在linux上c程序开发适合入门学习

2011-03-28

google 搜索引擎介绍

介绍了近几年的 google 搜索发展与改变，其中涉及到google 的最新的架构和思想。

2009-04-22

开源技术选型手册 web2.0 for java

最新的比较流行的开源软件使用手册,web 2.0全面介绍

2009-04-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 大数据：Spark 算子（一）排序算子sortByKey来看大数据平台下如何做排序

原创 大数据：Spark mlib(二) Naive bayes朴素贝叶斯分类之多元朴素贝叶斯源码分析

原创 大数据：Spark mlib(一) KMeans聚类算法源码分析