自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

不忘初心

方能远行。

  • 博客(73)
  • 收藏
  • 关注

Hadoop-2.2.0中文文档——Hadoop MapReduce 下一代 —配置一个单节点集群

Mapreduce 包你需从发布页面获得MapReduce tar包。若不能,你要将源码打成tar包。$ mvn clean install -DskipTests$ cd hadoop-mapreduce-project$ mvn clean install assembly:assembly -Pnative注意:你需要安装有protoc 2.5.0。忽略本地...

2014-04-21 18:51:00 168

Hadoop-2.2.0中文文档——Apache Hadoop 2.2.0 概览

学习Hadoop也有一段时间了。起先从Hadoop-1.2.1开始,略会写点MapReduce,还是想要跟上Hadoop发展的步伐,虽说现在官方已经发布2.4.0版本了,但是稳定版还是2.2.0。在机器上跑了一下,发现2.x比起1.x,变化还是很大的,更加模块化了。决定从官网的文档开始入手,现在也略有些时间,就一边学习一边将其翻译成中文好了,不过英文比较烂。大概每天翻译一节吧。------...

2014-04-20 11:39:00 204

HDFS——如何列出目录下的所有文件

可以用bin/hadoop fs -ls 来读取HDFS某一目录下的文件列表及属性信息。也可以采用HDFS的API来读取。如下:import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop....

2014-04-18 10:03:00 3539

HDFS——如何获取文件的属性信息

可以用bin/hadoop fs -ls 来读取HDFS上的文件属性信息。也可以采用HDFS的API来读取。如下:import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Pa...

2014-04-18 09:46:00 659

HDFS——如何从HDFS上读取文件内容

用这个命令bin/hadoop fs -cat 可以将HDFS上的文件内容读取到控制台。也可以采用HDFS的API来读取。如下:import java.net.URI;import java.io.InputStream;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSys...

2014-04-18 09:26:00 1051

HDFS——如何将文件从HDFS上删除

用命令行bin/hadoop fs -rm(r) 可以删除hdfs上的文件(夹)用HDFS的API也是可以的。如下:import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.P...

2014-04-18 09:11:00 2562

HDFS——如何将文件从HDFS复制到本地

下面两个命令是把文件从HDFS上下载到本地的命令。get使用方法:hadoop fs -get [-ignorecrc] [-crc] <src> <localdst>复制文件到本地文件系统。可用-ignorecrc选项复制CRC校验失败的文件。使用-crc选项复制文件以及CRC信息。示例:hadoop fs -get /us...

2014-04-18 08:36:00 4302

HDFS——如何将文件复制到HDFS

在Hadoop中用作文件操作的主类位于org.apache.hadoop.fs包中。基本的文件操作有open、read、write和close。实际上,Hadoop的文件API是通用的,可用于HDFS以外的文件系统。Hadoop文件API的起点是FileSystem类,这是一个与文件系统交互的抽象类,存在不同的具体实现子类来处理HDFS和本地文件系统,可以通过调用factory方法FileSy...

2014-04-18 08:33:00 1425

Bloom Filter的原理及实现

Bloom Filter:是一个比特数组,表示具有一定误报率的集合。主要优势在于其大小(比特位个数)为常数且在初始化时被设置,增加更多的元素到一个Bloom Filter 中不会增加它的大小,仅增加误报的概率。一般包含两个方法:add(),contains()。误报率: r = (1-exp(-kn/m))k ,k = ln(2) * (m/n) , r = 0.6185*(m/n) ...

2014-04-15 10:51:00 605

如何在百度云平台上执行Hadoop MapReduce程序

发现百度云平台,可以在线执行hadoop MapReduce程序,很欣喜,摸索了一下,可以使用。大概想这才叫做云计算啊,我把计算任务给你,你把计算结果还给我。首先要有百度账号。从平台入口进入:http://openresearch.baidu.com/activity/platform.jspx。会看到如下的界面,其实就是把linux系统的控制台搬到了浏览器上。可用的命令这里已...

2014-04-15 10:02:00 164

Hadoop读书笔记——基础知识二

Hadoop数据类型 为了让键/值对可以在集群上移动,MapReduce框架提供了一种序列化键/值对的方法。因此,只有那些支持这种序列化的类能够在框架中充当键/值。实现Writable接口的类可以是值;实现WritableComparable<T>接口的类可以是键/值。键/值对经常使用的数据类型列表。这些类均用于实现WritableComparable接口。 ...

2014-04-14 13:49:00 177

Hadoop读书笔记——基础知识

//书非借不能读也,今早从图书馆新书阅览室借来《Hadoop in Action》,最长借期7天。整理读书笔记并留下电子版以供以后方便复习。Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据。专为离线处理和大规模数据分析而设计,避免耗时的数据传输问题,适合一次写入,多次读取。特性:方便、健壮、可扩展、简单。MapReduce分为两个阶段:mapping...

2014-04-13 20:34:00 135

Hadoop读书笔记——基础知识

//书非借不能读也,今早从图书馆新书阅览室借来《Hadoop in Action》,最长借期7天。整理读书笔记并留下电子版以供以后方便复习。Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据。专为离线处理和大规模数据分析而设计,避免耗时的数据传输问题,适合一次写入,多次读取。特性:方便、健壮、可扩展、简单。MapReduce分为两个阶段:mapping...

2014-04-13 20:34:00 86

找出1到19之中数的和为20的所有组合

可以分拆成多个函数来做,每个函数计算一种长度的组合。两位数字相加时,只能是1-9之间的数,加上10-19之间的数。以此类推。package test;public class Sum20 { public static void main(String[] args) { sum2num(); System.out.println("----------------"); ...

2014-04-02 13:38:00 370

找出1到19之中数的和为20的所有组合

可以分拆成多个函数来做,每个函数计算一种长度的组合。两位数字相加时,只能是1-9之间的数,加上10-19之间的数。以此类推。package test;public class Sum20 { public static void main(String[] args) { sum2num(); System.out.println("----------------"); ...

2014-04-02 13:38:00 204

用Java向MySQL中插入HTML代码

最近想把爬虫抓取到的网页数据插入的数据库中保存以便方便处理,但是无奈一直就是插入失败。最后研究发现,其实就是一个简单的单双引号问题,只要把双引号转义,就可以插入到数据库中。比如,网页上的一段链接是这样写的:<a href="http://csdn.net/zh">xxx</a>;我们只要处理其中的这一段就可以了:"http://csdn.net/zh";...

2014-03-25 09:02:00 980

用Java向MySQL中插入HTML代码

最近想把爬虫抓取到的网页数据插入的数据库中保存以便方便处理,但是无奈一直就是插入失败。最后研究发现,其实就是一个简单的单双引号问题,只要把双引号转义,就可以插入到数据库中。比如,网页上的一段链接是这样写的:<a href="http://csdn.net/zh">xxx</a>;我们只要处理其中的这一段就可以了:"http://csdn.net/zh";...

2014-03-25 09:02:00 228

Lucene使用之构建索引、查询

package cn.zhf.lucene;import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStreamReader;import java.util.Date;import...

2014-03-10 11:09:00 91

用Jsoup做“爬虫”

Jsoup是一个开源的解析html的类库,非常好用,亦可用来获取html源文件。利用Jsoup也可以轻松将一个网站全部抓取下来。我的思路是这样的:1.抓取网站的导航页面,将导航链接解析出来存好。2.顺着导航链接获取导航分类的页面数。3.抓取分类页面并解析具体文章链接。4.抓取具体文章页面并解析内容。这样要求目标站点结构清晰,分类明确。下面是一个简单示例:package...

2014-03-10 10:50:00 94

汉诺塔问题的递归实现

汉诺塔是根据一个传说形成的一个问题:有三根杆子A,B,C。A杆上有N个(N>1)穿孔圆盘,盘的尺寸由下到上依次变小。要求按下列规则将所有圆盘移至C杆:每次只能移动一个圆盘;大盘不能叠在小盘上面。提示:可将圆盘临时置于B杆,也可将从A杆移出的圆盘重新移回A杆,但都必须遵循上述两条规则。package cn.zhf.test;public class HanoiTowe...

2014-03-10 10:32:00 147

汉诺塔问题的递归实现

汉诺塔是根据一个传说形成的一个问题:有三根杆子A,B,C。A杆上有N个(N>1)穿孔圆盘,盘的尺寸由下到上依次变小。要求按下列规则将所有圆盘移至C杆:每次只能移动一个圆盘;大盘不能叠在小盘上面。提示:可将圆盘临时置于B杆,也可将从A杆移出的圆盘重新移回A杆,但都必须遵循上述两条规则。package cn.zhf.test;public class HanoiTowe...

2014-03-10 10:32:00 103

最小二乘法线性回归函数编码实现

以前在统计学的学习中,有回归分析,如果只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析,最小二乘法可根据给定的数据拟合出一条近似的直线。package cn.zhf.test;/** * 最小二乘法 线性回归 y = a*x + b * * b = sum( y ) / n - a * sum( x ) / n * * a ...

2014-03-10 10:19:00 93

最小二乘法线性回归函数编码实现

以前在统计学的学习中,有回归分析,如果只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析,最小二乘法可根据给定的数据拟合出一条近似的直线。package cn.zhf.test;/** * 最小二乘法 线性回归 y = a*x + b * * b = sum( y ) / n - a * sum( x ) / n * * a ...

2014-03-10 10:19:00 74

哈夫曼编码

package cn.zhf.test;import java.util.Comparator;import java.util.NoSuchElementException;public class HuffmanTree { final int SIZE = 256; public static void main(String[] args) { ...

2014-03-10 10:04:00 79

哈夫曼编码

package cn.zhf.test;import java.util.Comparator;import java.util.NoSuchElementException;public class HuffmanTree { final int SIZE = 256; public static void main(String[] args) { ...

2014-03-10 10:04:00 60

数据结构之图的Java实现

图G由两个集合V和E组成,记为:G=(V,E),其中:V是顶点的有穷非空集合,E是V中顶点偶对(称为边)的有穷集。通常,也将图G的顶点集和边集分别记为V(G)和E(G)。E(G)可以是空集。若E(G)为空,则图G只有顶点而没有边。图有两种存储结构:邻接矩阵和邻接表。邻接矩阵:用邻接矩阵表示顶点间的相邻关系, 用一个顺序表来存储顶点信息。邻接表:类似于树的孩子链表表示法。对于图G中的每个顶点vi,该...

2014-03-10 09:59:00 210

数据结构之图的Java实现

图G由两个集合V和E组成,记为:G=(V,E),其中:V是顶点的有穷非空集合,E是V中顶点偶对(称为边)的有穷集。通常,也将图G的顶点集和边集分别记为V(G)和E(G)。E(G)可以是空集。若E(G)为空,则图G只有顶点而没有边。图有两种存储结构:邻接矩阵和邻接表。邻接矩阵:用邻接矩阵表示顶点间的相邻关系, 用一个顺序表来存储顶点信息。邻接表:类似于树的孩子链表表示法。对于图G中的每个顶点vi,该...

2014-03-10 09:59:00 69

贝叶斯算法(bayesian)在GCMail反垃圾邮件系统中的应用

贝叶斯在在反垃圾邮件的产品中应用很多,也是当前最好的反垃圾邮件算法,著名的卡巴斯基病毒库代码就是采用贝叶斯过滤算法,在目前的邮件系统中采用贝叶斯过滤算法的唯有GCMAil邮件服务器。下面我就对贝叶斯反垃圾邮件技术简单的介绍一、 贝叶斯反垃圾邮件技术介绍  贝叶斯是基于概率的一种算法,是Thomas Bayes:一位伟大的数学大师所创建的,目前此种算法用于过滤垃圾邮件得到了广泛地好评...

2014-03-10 09:19:00 124

贝叶斯算法(bayesian)在GCMail反垃圾邮件系统中的应用

贝叶斯在在反垃圾邮件的产品中应用很多,也是当前最好的反垃圾邮件算法,著名的卡巴斯基病毒库代码就是采用贝叶斯过滤算法,在目前的邮件系统中采用贝叶斯过滤算法的唯有GCMAil邮件服务器。下面我就对贝叶斯反垃圾邮件技术简单的介绍一、 贝叶斯反垃圾邮件技术介绍  贝叶斯是基于概率的一种算法,是Thomas Bayes:一位伟大的数学大师所创建的,目前此种算法用于过滤垃圾邮件得到了广泛地好评...

2014-03-10 09:19:00 184

基于朴素贝叶斯的垃圾邮件检测

package cn.zhf.test;import java.io.*;import java.util.*;public class SpamMailDetection { public static final String BASE_PATH = "C:\\Users\\zhf\\Desktop\\mail"; public static final String...

2014-03-10 09:15:00 396

基于朴素贝叶斯的垃圾邮件检测

package cn.zhf.test;import java.io.*;import java.util.*;public class SpamMailDetection { public static final String BASE_PATH = "C:\\Users\\zhf\\Desktop\\mail"; public static final String...

2014-03-10 09:15:00 151

数据结构之优先级队列、堆及堆排序

优先级队列是一个抽象数据类型,它提供删除插入、最大(最小)关键字值数据项的方法,其主要目的是对极值提供便利的访问。优先级队列可以用有序数组来实现,也可以用队列来实现。堆,是一种树,由其实现优先级队列的插入删除操作的时间复杂度都是O(logN)。堆是有如下特点的二叉树:1.是完全二叉树。即,除了树的最后一层节点不是满的,其他的每一层都必须是满的。2.堆中的每一个节点都满足...

2014-03-06 08:48:00 149

数据结构之优先级队列、堆及堆排序

优先级队列是一个抽象数据类型,它提供删除插入、最大(最小)关键字值数据项的方法,其主要目的是对极值提供便利的访问。优先级队列可以用有序数组来实现,也可以用队列来实现。堆,是一种树,由其实现优先级队列的插入删除操作的时间复杂度都是O(logN)。堆是有如下特点的二叉树:1.是完全二叉树。即,除了树的最后一层节点不是满的,其他的每一层都必须是满的。2.堆中的每一个节点都满足...

2014-03-06 08:48:00 96

数据结构之哈希表的java实现

哈希表是一种数据结构,提供快速的插入和查找功能。哈希表基于数组存储数据,因此能在O(1)时间内定位数据。关键字值通过哈希函数映射为数组下标。缺点就是数组创建后容量固定,如果数据较多需要不断扩展其长度。如何将关键字转换为数组下标?这个操作是通过哈希函数完成的。比如,下面就是一个简单的哈希函数,int hash(int key){return key % array.length;//通过取余,返回值...

2014-03-06 08:46:00 153

数据结构之哈希表的java实现

哈希表是一种数据结构,提供快速的插入和查找功能。哈希表基于数组存储数据,因此能在O(1)时间内定位数据。关键字值通过哈希函数映射为数组下标。缺点就是数组创建后容量固定,如果数据较多需要不断扩展其长度。如何将关键字转换为数组下标?这个操作是通过哈希函数完成的。比如,下面就是一个简单的哈希函数,int hash(int key){return key % array.length;//通过取余,返回值...

2014-03-06 08:46:00 96

数据结构之二叉树的Java实现

树由边连接的节点构成。节点一般代表实体数据,如代表某一类数据。windows文件系统就可以看成是一棵树,比如C盘下有一些文件夹,这些文件夹下面又分别有一些文件夹,这样的关系其实就是一棵树。根:树顶端的节点称为树的根,一棵树只有一个根。父节点:每一个节点(除了根)都有一条边向上连接到另一个节点,上面的这个节点就称为下面节点的父节点。子节点:与父节点相反。子树:每个节点都可以作为子树的根,它和它所有的...

2014-03-05 10:23:00 70

数据结构之二叉树的Java实现

树由边连接的节点构成。节点一般代表实体数据,如代表某一类数据。windows文件系统就可以看成是一棵树,比如C盘下有一些文件夹,这些文件夹下面又分别有一些文件夹,这样的关系其实就是一棵树。根:树顶端的节点称为树的根,一棵树只有一个根。父节点:每一个节点(除了根)都有一条边向上连接到另一个节点,上面的这个节点就称为下面节点的父节点。子节点:与父节点相反。子树:每个节点都可以作为子树的根,它和它所有的...

2014-03-05 10:23:00 46

数据结构之双向链表的Java实现

单链表只能从前往后遍历,如果链表的长度较大,遍历到链表后半部分的时候想要往前查找,就只能回到开头,重新遍历了。双向链表提供了这个能力,即允许前向遍历,也允许后向遍历整个链表。原因是双向链表的每个节点都有两个指向其他节点的引用。但这也是其缺点,因为在插入、删除的时候需要处理四个链接点的引用, 占用的空间也大了一些。如将头节点和尾节点链接起来,即成为双向循环链表。下面是java代码:...

2014-03-05 10:21:00 108

数据结构之双向链表的Java实现

单链表只能从前往后遍历,如果链表的长度较大,遍历到链表后半部分的时候想要往前查找,就只能回到开头,重新遍历了。双向链表提供了这个能力,即允许前向遍历,也允许后向遍历整个链表。原因是双向链表的每个节点都有两个指向其他节点的引用。但这也是其缺点,因为在插入、删除的时候需要处理四个链接点的引用, 占用的空间也大了一些。如将头节点和尾节点链接起来,即成为双向循环链表。下面是java代码:...

2014-03-05 10:21:00 51

ubuntu登录又退回登录页面

在ubuntu系统上安装了jdk,环境变量在/etc/profile这里配置了,但是配置的有点小问题,当时java -version没有问题,只有等到下次开机的时候才会出现问题,就是一直登录不了,输入正确的密码还是会跳回登录页面,此时可以按ctrl+alt+F2进入命令模式:$:/usr/bin/sudo /usr/bin/vi /etc/profile进入vi编辑器编辑环境变量,成功后保...

2014-03-05 10:18:00 399

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除