2015年07月_caiandyong

原创 ubuntu上搭建ntp时间服务器

ubuntu上搭建ntp时间服务器的步骤如下：1.安装ntp sudo apt-get install ntp2.修改配置文件 sudo vim /etc/ntp.conf在/etc/ntp.conf里面添加以下内容：　　　　driftfile /var/lib/ntp/ntp.drift　　　　statistics lo

2015-07-30 00:07:08 1482

原创 Speedup，Scaleup，Sizeup

加速比(Speedup)分析可扩展性（Scaleup）分析规模增长性(Sizeup)分析并行算法通常包含三种评价的方法，用来评价算法各方面的优劣。1.speedup评测speedup的方法是，保持数据不变，增加计算机的数目。计算机数目为m时的speedup计算方法如下：speedup(m)=在一台机器上面使用的时间 / 在m台机器上面使用的时间。该

2015-07-28 23:55:49 1949

转载 Java中判断字符串是否为数字的五种方法

推荐使用第二个方法，速度最快。方法一：用JAVA自带的函数 public static boolean isNumeric(String str){ for (int i = str.length();--i>=0;){ if (!Character.isDigit(str.charAt(i))){ return fals

2015-07-16 21:08:49 537

原创 Hadoop map任务个数分析

Hadoop map任务个数由输入文件在HDFS上的分块个数确定。如果一个输入文件的大小大于BlockSize，那么这个输入文件被分成的若干个块，一个块即是一个split,map任务的个数等于块(split)的个数。如果一个输入文件的大小小于BlockSize，则这个文件就是一个块（其占用的存储空间等于文件的实际大小），这个输入文件将被作为一个map任务的输

2015-07-16 19:38:37 1684

原创 Hadoop获取split文件名

在mapper()类的map方法,setup()方法中读取当前split所在文件的文件名： //获取当前split的文件名 FileSplit fileSplit = (FileSplit)context.getInputSplit(); System.out.println(fileSplit.getPath().getNam

2015-07-16 19:12:22 4358

原创 Hash

哈希算法将任意长度的二进制值映射为较短的固定长度的二进制值，这个小的二进制值称为哈希值。哈希值是一段数据唯一且极其紧凑的数值表示形式。如果散列一段明文而且哪怕只更改该段落的一个字母，随后的哈希都将产生不同的值。要找到散列为同一个值的两个不同的输入，在计算上是不可能实现的，所以数据的哈希值可以检验数据的完整性。一般用于快速查找和加密算法。

2015-07-16 00:12:18 678

原创 MapReduce多文件输出

public static class MyReduce extends Reducer{ public static Text keyout = new Text(); public static Text valout = new Text(); private MultipleOutputs mos; //使用输入的上下文创建

2015-07-11 11:05:33 697

原创数据归一化和两种常用的归一化方法

数据标准化（归一化）处理是数据挖掘的一项基础工作，不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。以下是两种常用的归一化方法：一、min-max标准化（Min-Max Normalization）也称为离差标准

2015-07-06 20:44:34 1225 1

原创 java BufferedWriter写数据不完全

使用BufferedWriter写文件，在这个文件写完后，进行bw.flush()操作，但是写好的文件最后一行总是有缺失。因为bw.flush()是清空缓冲区，就是说立即输出到输出目的地，而不是等缓冲区满了再输出，bw.write()只是将数据输出到缓冲区，还没有输出到目的地。解决方法：在bw.write()后添加一行：bw.flush()。每执行一次write()就f

2015-07-01 15:46:02 5322

蔡先生的专栏