大白菜的奋斗专栏

苟日新，日日新，又日新！生活从不眷顾因循守旧、满足现状者，从不等待不思进取、坐享其成者，而是将更多机遇留给善于和勇于创新的人们！

原创数据结构与算法——希尔排序（Java实现）

算法背景： * 对于大规模乱序数组，插入排序很慢；因为它只能交换相邻元素 * ，因此元素只能从数组的一端一点一点地移动到另一端。 * 希尔排序为了加快速度，简单滴改进了插入排序，交换不相邻的 * 元素对数组的局部进行排序，并最终用插入排序将局部有序的数组 * 排序希尔排序思想 * 使数组中任意间隔为H的元素都是有序的，换句话说，一个H有序数

2015-06-18 01:36:21 418

原创数据结构与算法——插入排序（Java实现）

/** * 插入排序的思想好比对手中的扑克牌排序； * 好比左手为空，桌面牌面朝下，我们每次拿 * 起一张桌面的牌，将其插入左手正确的位置， * 在插入过程中，将被插入的牌按某一顺序逐个 * 和左手的牌比较，找到正确的位置就停止 * **///伪代码如下：/** * insertion_sort() * for j=2 to a.length

2015-06-18 00:14:55 476

原创数据结构与算法——选择排序（Java实现）

一算法思想：每次循环（第i次循环），选择数组a中未排序的部分，将其数值最小（大）的数值和第i位数值替换。以此类推，直到排序结束。二算法实现：public class selection { public static void sort(Comparable[] a) {//升序排列 int N=a.length; for(int i=0;i<N;i++)

2015-06-17 01:20:57 488

原创 Spark入门——6 SparkStreaming

SparkStreaming整体架构图：一 SparkStreaming快速入门： 1，建立StreamingContext：（scc=new StreamingContext(mastername,appname,batchDuration，[sparkhome],[jars])） 2，创建InputDStream：（kafkaStream，fl

2015-06-16 00:10:29 1200

原创 Spark入门——5 SparkSQL

SparkSQL是在Spark1.0版本才加入

2015-06-14 13:34:15 884

原创 Spark入门——4： Spark的存储管理模块

我们在运用Spark的时候，基本都是在于RDD打交道，实际上处理数据都是通过RDD提供的接口来操作。然而我们底层的数据到底是如何管理的呢？这正是今天我要学习的内容。 1，存储模块框架：架构上讲，分为通信层和存储层。 1）通信层面采用主从方式实现通信（主从节点间互换消息）； 2）存储层负责提供接口来存储数据（可把数据存储到内存，磁

2015-06-03 21:51:48 1859

原创数据结构与算法——二分查找法（Java实现）

二分查找法算法思想：算法由静态方法rank实现，它接受一个整数键和一个有序的整数数组。如果整数键存在于数组中则返回它的索引，否则返回-1。* 算法使用两个标记变量lo,high,保证如果键值在数组中，则它一定在a[lo...hi]中* 然后方法进入一个循环，不断将数组中的中间键和被查找的键作比较* 如果被查找的键等于中间键，返回中间键索引mid；* 否

2015-06-01 22:27:55 597

原创 Spark入门——3：Spark的任务调度

Spark的核心就是其调度管理逻辑。

2015-05-31 00:37:07 2382

原创 Spark入门——2：spark运行模式及原理

一：spark的运行模式 spark的运行模式有多种。当部署在单机上的时候，可以用本地模式（local），或者伪分布式模式；当以分布式集群的方式部署时，也有多种运行模式： 1，spark内建的Standalone模式：Spark:hostname:port 2，本地模式，使用N核：Local[N] 3，伪分布式：Local cluster

2015-05-29 00:33:00 903

原创 Spark入门——1：RDD及编程接口

RDD是Spark的核心，也是整个Spark的架构基础。spark与mapreduce相比，前者提供了更加丰富的编程接口给程序猿们。所以下面主要说明RDD的基本概念，以及其重要接口。 RDD包含4大操作： 1，创建操作：RDD的创建有两个途径。一个是来之外部存储系统（例如：HDFS，S3）或者内部集合，另外一个是来自其他RDD的转换操作（例如m

2015-05-10 21:55:47 2049

原创天行健，君子以自强不息！

毫无疑问，自己放弃了最平坦的路，而选择了一条充满挑战的小路。既然选择了，就得列出详细计划来。努力既不是努力给别人看，也不是努力给自己看。努力是要拼尽全力去做好一件事情，而不是做出很努力的样子。接下来一个月之的任务：（1）将机器学习常用算法原理过一遍；（2）结合具体场景应用一遍；

2015-05-10 15:18:49 601

转载亚马逊从商品到商品的协同过滤推荐

转载自新浪博客“luolu的博客”，链接地址：http://blog.sina.com.cn/s/blog_586631940100pduh.html。正文如下。原文发表在：Greg Linden, Brent Smith, Jeremy York, "Amazon.com Recommendations: Item-to-Item Collaborative Fi

2015-04-15 20:55:20 4194 1

转载分布式消息系统—kafka入门

由于工作原因涉及到kafka分布式消息系统，在网上找了好久，发现作者Gaischen对kafka分布式消息系统的阐述非常到位，故将此博文转载，和大家分享，也便于以后温习回顾。以下是原文。终于可以写kafka的文章了，Mina的相关文章我已经做了索引，在我的博客中置顶了，大家可以方便的找到。从这一篇开始分布式消息系统的入门。在我们大量使用分布式数据库、分布式计算集群的时候，是否会

2015-04-15 20:42:16 619