laozhao02-CSDN博客

Hadoop-2.2.0中文文档——Hadoop MapReduce 下一代 —配置一个单节点集群

Mapreduce 包你需从发布页面获得MapReduce tar包。若不能，你要将源码打成tar包。$ mvn clean install -DskipTests$ cd hadoop-mapreduce-project$ mvn clean install assembly:assembly -Pnative注意：你需要安装有protoc 2.5.0。忽略本地...

2014-04-21 18:51:00 229

Hadoop-2.2.0中文文档——Apache Hadoop 2.2.0 概览

学习Hadoop也有一段时间了。起先从Hadoop-1.2.1开始，略会写点MapReduce,还是想要跟上Hadoop发展的步伐，虽说现在官方已经发布2.4.0版本了，但是稳定版还是2.2.0。在机器上跑了一下，发现2.x比起1.x，变化还是很大的，更加模块化了。决定从官网的文档开始入手，现在也略有些时间，就一边学习一边将其翻译成中文好了，不过英文比较烂。大概每天翻译一节吧。------...

2014-04-20 11:39:00 257

HDFS——如何列出目录下的所有文件

可以用bin/hadoop fs -ls 来读取HDFS某一目录下的文件列表及属性信息。也可以采用HDFS的API来读取。如下：import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop....

2014-04-18 10:03:00 3643

HDFS——如何获取文件的属性信息

可以用bin/hadoop fs -ls 来读取HDFS上的文件属性信息。也可以采用HDFS的API来读取。如下：import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Pa...

2014-04-18 09:46:00 728

HDFS——如何从HDFS上读取文件内容

用这个命令bin/hadoop fs -cat 可以将HDFS上的文件内容读取到控制台。也可以采用HDFS的API来读取。如下：import java.net.URI;import java.io.InputStream;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSys...

2014-04-18 09:26:00 1130

HDFS——如何将文件从HDFS上删除

用命令行bin/hadoop fs -rm(r) 可以删除hdfs上的文件(夹)用HDFS的API也是可以的。如下：import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.P...

2014-04-18 09:11:00 2661

HDFS——如何将文件从HDFS复制到本地

下面两个命令是把文件从HDFS上下载到本地的命令。get使用方法：hadoop fs -get [-ignorecrc] [-crc] <src> <localdst>复制文件到本地文件系统。可用-ignorecrc选项复制CRC校验失败的文件。使用-crc选项复制文件以及CRC信息。示例：hadoop fs -get /us...

2014-04-18 08:36:00 4391

在Hadoop中用作文件操作的主类位于org.apache.hadoop.fs包中。基本的文件操作有open、read、write和close。实际上，Hadoop的文件API是通用的，可用于HDFS以外的文件系统。Hadoop文件API的起点是FileSystem类，这是一个与文件系统交互的抽象类，存在不同的具体实现子类来处理HDFS和本地文件系统，可以通过调用factory方法FileSy...

2014-04-18 08:33:00 1504

Bloom Filter的原理及实现

Bloom Filter：是一个比特数组，表示具有一定误报率的集合。主要优势在于其大小(比特位个数)为常数且在初始化时被设置，增加更多的元素到一个Bloom Filter 中不会增加它的大小，仅增加误报的概率。一般包含两个方法：add()，contains()。误报率： r = (1-exp(-kn/m))k ，k = ln(2) * (m/n) , r = 0.6185*(m/n) ...

2014-04-15 10:51:00 673

如何在百度云平台上执行Hadoop MapReduce程序

发现百度云平台，可以在线执行hadoop MapReduce程序，很欣喜，摸索了一下，可以使用。大概想这才叫做云计算啊，我把计算任务给你，你把计算结果还给我。首先要有百度账号。从平台入口进入：http://openresearch.baidu.com/activity/platform.jspx。会看到如下的界面，其实就是把linux系统的控制台搬到了浏览器上。可用的命令这里已...

2014-04-15 10:02:00 206

Hadoop读书笔记——基础知识二

Hadoop数据类型为了让键/值对可以在集群上移动，MapReduce框架提供了一种序列化键/值对的方法。因此，只有那些支持这种序列化的类能够在框架中充当键/值。实现Writable接口的类可以是值；实现WritableComparable<T>接口的类可以是键/值。键/值对经常使用的数据类型列表。这些类均用于实现WritableComparable接口。 ...

2014-04-14 13:49:00 221

Hadoop读书笔记——基础知识

//书非借不能读也，今早从图书馆新书阅览室借来《Hadoop in Action》，最长借期7天。整理读书笔记并留下电子版以供以后方便复习。Hadoop是一个开源的框架，可编写和运行分布式应用处理大规模数据。专为离线处理和大规模数据分析而设计，避免耗时的数据传输问题，适合一次写入，多次读取。特性：方便、健壮、可扩展、简单。MapReduce分为两个阶段：mapping...

2014-04-13 20:34:00 180

Hadoop读书笔记——基础知识

//书非借不能读也，今早从图书馆新书阅览室借来《Hadoop in Action》，最长借期7天。整理读书笔记并留下电子版以供以后方便复习。Hadoop是一个开源的框架，可编写和运行分布式应用处理大规模数据。专为离线处理和大规模数据分析而设计，避免耗时的数据传输问题，适合一次写入，多次读取。特性：方便、健壮、可扩展、简单。MapReduce分为两个阶段：mapping...

2014-04-13 20:34:00 115

找出1到19之中数的和为20的所有组合

可以分拆成多个函数来做，每个函数计算一种长度的组合。两位数字相加时，只能是1-9之间的数，加上10-19之间的数。以此类推。package test;public class Sum20 { public static void main(String[] args) { sum2num(); System.out.println("----------------"); ...

2014-04-02 13:38:00 417

找出1到19之中数的和为20的所有组合

可以分拆成多个函数来做，每个函数计算一种长度的组合。两位数字相加时，只能是1-9之间的数，加上10-19之间的数。以此类推。package test;public class Sum20 { public static void main(String[] args) { sum2num(); System.out.println("----------------"); ...

2014-04-02 13:38:00 246

用Java向MySQL中插入HTML代码

最近想把爬虫抓取到的网页数据插入的数据库中保存以便方便处理，但是无奈一直就是插入失败。最后研究发现，其实就是一个简单的单双引号问题，只要把双引号转义，就可以插入到数据库中。比如，网页上的一段链接是这样写的：<a href="http://csdn.net/zh">xxx</a>;我们只要处理其中的这一段就可以了："http://csdn.net/zh";...

2014-03-25 09:02:00 1094

用Java向MySQL中插入HTML代码

最近想把爬虫抓取到的网页数据插入的数据库中保存以便方便处理，但是无奈一直就是插入失败。最后研究发现，其实就是一个简单的单双引号问题，只要把双引号转义，就可以插入到数据库中。比如，网页上的一段链接是这样写的：<a href="http://csdn.net/zh">xxx</a>;我们只要处理其中的这一段就可以了："http://csdn.net/zh";...

2014-03-25 09:02:00 255

Lucene使用之构建索引、查询

package cn.zhf.lucene;import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStreamReader;import java.util.Date;import...

2014-03-10 11:09:00 127

用Jsoup做“爬虫”

Jsoup是一个开源的解析html的类库，非常好用，亦可用来获取html源文件。利用Jsoup也可以轻松将一个网站全部抓取下来。我的思路是这样的：1.抓取网站的导航页面，将导航链接解析出来存好。2.顺着导航链接获取导航分类的页面数。3.抓取分类页面并解析具体文章链接。4.抓取具体文章页面并解析内容。这样要求目标站点结构清晰，分类明确。下面是一个简单示例：package...

2014-03-10 10:50:00 124

汉诺塔问题的递归实现

汉诺塔是根据一个传说形成的一个问题：有三根杆子A，B，C。A杆上有N个(N>1)穿孔圆盘，盘的尺寸由下到上依次变小。要求按下列规则将所有圆盘移至C杆：每次只能移动一个圆盘；大盘不能叠在小盘上面。提示：可将圆盘临时置于B杆，也可将从A杆移出的圆盘重新移回A杆，但都必须遵循上述两条规则。package cn.zhf.test;public class HanoiTowe...

2014-03-10 10:32:00 228

汉诺塔问题的递归实现

汉诺塔是根据一个传说形成的一个问题：有三根杆子A，B，C。A杆上有N个(N>1)穿孔圆盘，盘的尺寸由下到上依次变小。要求按下列规则将所有圆盘移至C杆：每次只能移动一个圆盘；大盘不能叠在小盘上面。提示：可将圆盘临时置于B杆，也可将从A杆移出的圆盘重新移回A杆，但都必须遵循上述两条规则。package cn.zhf.test;public class HanoiTowe...

2014-03-10 10:32:00 129

最小二乘法线性回归函数编码实现

以前在统计学的学习中，有回归分析，如果只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析，最小二乘法可根据给定的数据拟合出一条近似的直线。package cn.zhf.test;/** * 最小二乘法线性回归 y = a*x + b * * b = sum( y ) / n - a * sum( x ) / n * * a ...

2014-03-10 10:19:00 140

最小二乘法线性回归函数编码实现

以前在统计学的学习中，有回归分析，如果只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析，最小二乘法可根据给定的数据拟合出一条近似的直线。package cn.zhf.test;/** * 最小二乘法线性回归 y = a*x + b * * b = sum( y ) / n - a * sum( x ) / n * * a ...

2014-03-10 10:19:00 108

哈夫曼编码

package cn.zhf.test;import java.util.Comparator;import java.util.NoSuchElementException;public class HuffmanTree { final int SIZE = 256; public static void main(String[] args) { ...

2014-03-10 10:04:00 116

哈夫曼编码

package cn.zhf.test;import java.util.Comparator;import java.util.NoSuchElementException;public class HuffmanTree { final int SIZE = 256; public static void main(String[] args) { ...

2014-03-10 10:04:00 85

数据结构之图的Java实现

图G由两个集合V和E组成，记为：G=(V，E)，其中：V是顶点的有穷非空集合，E是V中顶点偶对(称为边)的有穷集。通常，也将图G的顶点集和边集分别记为V(G)和E(G)。E(G)可以是空集。若E(G)为空，则图G只有顶点而没有边。图有两种存储结构：邻接矩阵和邻接表。邻接矩阵：用邻接矩阵表示顶点间的相邻关系，用一个顺序表来存储顶点信息。邻接表：类似于树的孩子链表表示法。对于图G中的每个顶点vi，该...

2014-03-10 09:59:00 269

数据结构之图的Java实现

图G由两个集合V和E组成，记为：G=(V，E)，其中：V是顶点的有穷非空集合，E是V中顶点偶对(称为边)的有穷集。通常，也将图G的顶点集和边集分别记为V(G)和E(G)。E(G)可以是空集。若E(G)为空，则图G只有顶点而没有边。图有两种存储结构：邻接矩阵和邻接表。邻接矩阵：用邻接矩阵表示顶点间的相邻关系，用一个顺序表来存储顶点信息。邻接表：类似于树的孩子链表表示法。对于图G中的每个顶点vi，该...

2014-03-10 09:59:00 96

贝叶斯算法(bayesian)在GCMail反垃圾邮件系统中的应用

贝叶斯在在反垃圾邮件的产品中应用很多，也是当前最好的反垃圾邮件算法，著名的卡巴斯基病毒库代码就是采用贝叶斯过滤算法，在目前的邮件系统中采用贝叶斯过滤算法的唯有GCMAil邮件服务器。下面我就对贝叶斯反垃圾邮件技术简单的介绍一、贝叶斯反垃圾邮件技术介绍　　贝叶斯是基于概率的一种算法，是Thomas Bayes：一位伟大的数学大师所创建的，目前此种算法用于过滤垃圾邮件得到了广泛地好评...

2014-03-10 09:19:00 147

贝叶斯算法(bayesian)在GCMail反垃圾邮件系统中的应用

贝叶斯在在反垃圾邮件的产品中应用很多，也是当前最好的反垃圾邮件算法，著名的卡巴斯基病毒库代码就是采用贝叶斯过滤算法，在目前的邮件系统中采用贝叶斯过滤算法的唯有GCMAil邮件服务器。下面我就对贝叶斯反垃圾邮件技术简单的介绍一、贝叶斯反垃圾邮件技术介绍　　贝叶斯是基于概率的一种算法，是Thomas Bayes：一位伟大的数学大师所创建的，目前此种算法用于过滤垃圾邮件得到了广泛地好评...

2014-03-10 09:19:00 208

基于朴素贝叶斯的垃圾邮件检测

package cn.zhf.test;import java.io.*;import java.util.*;public class SpamMailDetection { public static final String BASE_PATH = "C:\\Users\\zhf\\Desktop\\mail"; public static final String...

2014-03-10 09:15:00 467

基于朴素贝叶斯的垃圾邮件检测

package cn.zhf.test;import java.io.*;import java.util.*;public class SpamMailDetection { public static final String BASE_PATH = "C:\\Users\\zhf\\Desktop\\mail"; public static final String...

2014-03-10 09:15:00 174

数据结构之优先级队列、堆及堆排序

优先级队列是一个抽象数据类型，它提供删除插入、最大(最小)关键字值数据项的方法，其主要目的是对极值提供便利的访问。优先级队列可以用有序数组来实现，也可以用队列来实现。堆，是一种树，由其实现优先级队列的插入删除操作的时间复杂度都是O(logN)。堆是有如下特点的二叉树：1.是完全二叉树。即，除了树的最后一层节点不是满的，其他的每一层都必须是满的。2.堆中的每一个节点都满足...

2014-03-06 08:48:00 212

数据结构之优先级队列、堆及堆排序

优先级队列是一个抽象数据类型，它提供删除插入、最大(最小)关键字值数据项的方法，其主要目的是对极值提供便利的访问。优先级队列可以用有序数组来实现，也可以用队列来实现。堆，是一种树，由其实现优先级队列的插入删除操作的时间复杂度都是O(logN)。堆是有如下特点的二叉树：1.是完全二叉树。即，除了树的最后一层节点不是满的，其他的每一层都必须是满的。2.堆中的每一个节点都满足...

2014-03-06 08:48:00 124

数据结构之哈希表的java实现

哈希表是一种数据结构，提供快速的插入和查找功能。哈希表基于数组存储数据，因此能在O(1)时间内定位数据。关键字值通过哈希函数映射为数组下标。缺点就是数组创建后容量固定，如果数据较多需要不断扩展其长度。如何将关键字转换为数组下标？这个操作是通过哈希函数完成的。比如,下面就是一个简单的哈希函数，int hash(int key){return key % array.length;//通过取余，返回值...

2014-03-06 08:46:00 202

数据结构之哈希表的java实现

哈希表是一种数据结构，提供快速的插入和查找功能。哈希表基于数组存储数据，因此能在O(1)时间内定位数据。关键字值通过哈希函数映射为数组下标。缺点就是数组创建后容量固定，如果数据较多需要不断扩展其长度。如何将关键字转换为数组下标？这个操作是通过哈希函数完成的。比如,下面就是一个简单的哈希函数，int hash(int key){return key % array.length;//通过取余，返回值...

2014-03-06 08:46:00 132

数据结构之二叉树的Java实现

树由边连接的节点构成。节点一般代表实体数据，如代表某一类数据。windows文件系统就可以看成是一棵树，比如C盘下有一些文件夹，这些文件夹下面又分别有一些文件夹，这样的关系其实就是一棵树。根：树顶端的节点称为树的根，一棵树只有一个根。父节点：每一个节点(除了根)都有一条边向上连接到另一个节点，上面的这个节点就称为下面节点的父节点。子节点：与父节点相反。子树：每个节点都可以作为子树的根，它和它所有的...

2014-03-05 10:23:00 118

数据结构之二叉树的Java实现

树由边连接的节点构成。节点一般代表实体数据，如代表某一类数据。windows文件系统就可以看成是一棵树，比如C盘下有一些文件夹，这些文件夹下面又分别有一些文件夹，这样的关系其实就是一棵树。根：树顶端的节点称为树的根，一棵树只有一个根。父节点：每一个节点(除了根)都有一条边向上连接到另一个节点，上面的这个节点就称为下面节点的父节点。子节点：与父节点相反。子树：每个节点都可以作为子树的根，它和它所有的...

2014-03-05 10:23:00 70

数据结构之双向链表的Java实现

单链表只能从前往后遍历，如果链表的长度较大，遍历到链表后半部分的时候想要往前查找，就只能回到开头，重新遍历了。双向链表提供了这个能力，即允许前向遍历，也允许后向遍历整个链表。原因是双向链表的每个节点都有两个指向其他节点的引用。但这也是其缺点，因为在插入、删除的时候需要处理四个链接点的引用，占用的空间也大了一些。如将头节点和尾节点链接起来，即成为双向循环链表。下面是java代码：...

2014-03-05 10:21:00 148

数据结构之双向链表的Java实现

单链表只能从前往后遍历，如果链表的长度较大，遍历到链表后半部分的时候想要往前查找，就只能回到开头，重新遍历了。双向链表提供了这个能力，即允许前向遍历，也允许后向遍历整个链表。原因是双向链表的每个节点都有两个指向其他节点的引用。但这也是其缺点，因为在插入、删除的时候需要处理四个链接点的引用，占用的空间也大了一些。如将头节点和尾节点链接起来，即成为双向循环链表。下面是java代码：...

2014-03-05 10:21:00 80

ubuntu登录又退回登录页面

在ubuntu系统上安装了jdk,环境变量在/etc/profile这里配置了,但是配置的有点小问题，当时java -version没有问题，只有等到下次开机的时候才会出现问题，就是一直登录不了，输入正确的密码还是会跳回登录页面，此时可以按ctrl+alt+F2进入命令模式：$:/usr/bin/sudo /usr/bin/vi /etc/profile进入vi编辑器编辑环境变量，成功后保...

2014-03-05 10:18:00 478

空空如也

空空如也