自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 如何构建一个死锁?

死锁的构建及避免

2015-11-12 22:25:39 843

原创 Java中String为什么是Immutable的

大家有没有想过为什么Java里的String是Immutable的呢?

2015-11-12 17:03:19 1720

原创 MAC $JAVA_HOME设置

Mac中JAVA_HOME环境变量的设置方式

2015-11-07 22:24:07 754

原创 Spark Machine Learning 总览

Spark的ML(Machine Learning)库提供了主流数据统计/挖掘算法的实现,威廉将在本文中做一个总览

2015-10-26 23:55:19 794

原创 为什么Java不支持多继承?

我们知道Java不支持多继承,但这样的设计是出于什么考虑呢?

2015-10-22 19:46:46 1798

原创 Java Collection的Fail fast与Fail safe迭代器

Java中Fail fast与Fail safe迭代器的区别

2015-10-22 11:27:09 1036

原创 Spark TaskScheduler 功能及源码解析

本文讲的是TaskScheduler的功能设计及具体实现

2015-10-09 19:09:07 2158

原创 Spark DAGScheduler 功能及源码解析

本文中,威廉将为大家展示DAGScheduler的功能及源码实现

2015-10-01 11:02:03 1601

原创 Spark Partitioner源码

Spark Partitioner 源码解析

2015-09-22 00:01:20 629

原创 Spark运行架构

Spark运行架构及流程

2015-09-06 21:21:47 670

原创 Hadoop集群假设

分布式的Hadoop集群构建步骤

2015-09-04 20:51:37 695

原创 SSH证书连接配置DEBUG步骤

在设置SSH证书登陆的时候遇到了些问题,在此记录下细节及解决方法

2015-09-02 00:54:23 2405

原创 第一个Spark程序

在本文中,威廉将尝试构建我们的第一个Spark程序,并在之前文章中创建的Spark集群里运行起来

2015-05-16 14:25:33 1291

原创 Spark任务运行详解

威廉将向大家展示如何在Spark集群上部署运行我们自己的程序

2015-05-13 12:51:10 4950

原创 Python easy_install 安装使用

本文将介绍python easy_install工具的安装使用

2015-05-12 23:32:20 789

原创 Spark集群架设详解

跟着威廉学Spark集群架设

2015-05-06 23:46:06 2799

原创 Facebook好友分布规律R语言分析

社交网络 R语言

2015-03-22 09:47:15 2386 1

原创 PageRank算法解析及R语言实现

在PageRank算法出现之前,早期的搜索引擎是根据关键词出现次数对网页进行排序,但这样的算法有严重的缺陷...

2015-03-12 00:12:35 5550

原创 KNN算法及R语言实现

KNN(k-Nearest Neighbor)分类算法是数据挖掘分类技术中较简单的方法之一。所谓k最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。        例如,上图中,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3/5,因此绿色

2015-03-08 22:27:34 46351 1

原创 朴素贝叶斯分类算法的R语言实现

贝叶斯分类常用来预测隶属关系,计算一个给定元组属于某一类的概率首先我们来看下贝叶斯基本公式:P(B|A)的意思是在A事件的情况下,发生B事件的概率,可以理解为概率论中的条件概率,而贝叶斯公式的巨大作用就是对因果关系进行了交换,通过上面的公式就可以计算P(A|B)的概率,只要通过上述的转换。朴素贝叶斯分类的正式定义如下:

2015-03-07 13:18:18 8833

转载 CRISP-DM (cross-industry standard process for data mining) 跨行业数据挖掘标准流程

CRISP-DM (cross-industry standard process for data mining), 即为"跨行业数据挖掘标准流程". 此KDD过程模型于1999年欧盟机构联合起草. 通过近几年的发展,CRISP-DM 模型在各种KDD过程模型中占据领先位置,采用量达到近60%.(数据引自Cios and Kurgan于2005年合著的论文trands in data min

2015-03-01 22:32:50 1888

原创 精妙的KMP算法原理及实现

大数据挖掘很多时候是处理文字信息,所以字符匹配算法就显得尤为重要。例如:在字符串“bigger than bigger”中匹配”bigger“字符串,求出匹配的起始字符串位置;我们可以看到,共有2次匹配,分别发生在位置0和位置12,那么如何设计算法呢?最简单朴素的想法就是挨个比过来,假设被匹配字符为target,匹配字符为pattern先把targe

2014-12-26 00:48:16 547

原创 什么是Java的内存泄露

Java在设计之初就基于GC(Garbage Collection 垃圾回收)的理念,使得JAVA开发者不需要像C/C++开发者那样费心处理垃圾对象的回收,这项工作将由Java虚拟机来实现。Java中创建的对象通常都存放在线程共享的堆内存里,GC的核心算法便是分辨出‘不再被任何途经使用的’对象进行内存回收。许多教科书给出的算法叫做‘引用计数算法’,即给对象添加一个引用计数器

2014-12-22 23:28:56 466

原创 如何用不变式断言设计算法

不变式(invariant)常用来保证程序设计的正确性,指的是必定为真的一个事实,在代码中通常具体表现为断言(assertion)。先来看一个问题:著名的 MU PUZZLE题目:通过每次只能进行以下四种变换中的一种,能否将字符串 MI 转化为 MU ?如果字符串以 I 结尾,后面可以加一个 U (xI -> xIU)M后面的字符串可以被复制(Mx -> Mxx

2014-12-15 23:51:48 1091

原创 Last.fm歌曲榜单的MapReduce实现

本篇文章将结合一个实例来看看Mapper/Reducer代码构建思路 Last.fm是一个音乐社区网站,需要根据用户的收听记录生成不同种类的歌曲榜单,用户数据主要有以下两个来源:l   用户在自己设备上播放的音乐,称为scrobblel   用户在Last.fm网站的广播电台在线收听radio,用户可以选择跳过skip数据提交到Last.fm后,经过验证和转换,最后存储为一行空

2014-11-15 19:36:24 1095

原创 CCDH

从今天开始威廉将连载CCDH学习笔记,一方面为了备考CCDH证书,另外也希望分享给想要学习了解Hadoop的朋友CCDH是Cloudera的Hadoop Developer认证,涵盖了Hadoop及其生态系统软件(Hive、Pig、Sqoop、Oozie、Crunch和Flume)的相关知识主要包括以下四个大类:架构:基础部件,不涉及到具体的MapReduce

2014-11-14 00:52:28 1824

原创 闲聊Hadoop

在威廉上一篇文章中提到Hadoop这个挺热门的大数据处理软件,现在我们就来聊一聊它Hadoop是由Doug Cutting创始,起源于Apache Nutch项目,后者是一个开源的搜索引擎从头开始建一个搜索引擎是个了不起的想法,Doug和他的团队面临的困难不光是搜索引擎算法,更是处理和索引抓取到的网页所需要的硬件资源;据他们估计,一个支持10亿个页面索引的系统需要50万美元的初期硬

2014-11-13 00:04:12 462

原创 大数据的前世今生

大数据可算是当下的时髦概念,连卖菜的大爷都能扯上几句大数据,可到底什么是大数据? 大数据概念的最早正式提出是在2011年的5月,麦肯锡全球研究院发布了一篇名为《大数据:创新、竞争和生产力的下一个前沿》的研究报告。文中对大数据做了以下定义:大数据:超过目前世界上数据库软件捕获,存储,管理,以及分析能力的数据量最新的维基百科也基本沿用了这个定义,可见大数据的“大”并非绝

2014-11-13 00:02:36 1068

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除