dreamfly2014-CSDN博客

转载 hadoop-2.6.0基准测试

hadoop-2.6.0基准测试转载至：http://blog.itpub.net/25854343/viewspace-1425183/分类： Hadoop1.测试程序的帮助信息[hadoop@tong1 hadoop-2.6.0]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.6.

2015-04-22 11:29:34 1600

原创 hive正则表达式

hive中的正则可以用，但是有所区别，区别在于原来的‘\’ 转义，这里变成了双斜杠了‘\\’

2014-08-05 18:30:45 11133

原创 Cannot lock storage /tmp/hadoop-root/dfs/name. The directory is already locked.

ERROR namenode.NameNode: java.io.IOException: Cannot lock storage /tmp/hadoop-root/dfs/name. The directory is already locked.

2014-07-09 14:35:55 6388

转载 mapreduce之StringTokenizer命令

StringTokenizer是一个用来分隔String的应用类，相当于VB的split函数。1.构造函数public StringTokenizer(String str)public StringTokenizer(String str, String delim)public StringTokenizer(String str, String delim, boolean

2014-06-26 14:28:10 1635

转载 hadoop备战：hive命令集

创建表：hive> CREATE TABLE pokes (foo INT, bar STRING); Creates a table called pokes with two columns, the first being an integer and the other a string创建一个新表，结构与其他一样hive> create table

2014-06-20 09:15:32 884

原创 java实战应用：MyBatis实现单表的增删改

MyBatis 是支持普通 SQL查询，存储过程和高级映射的优秀持久层框架。MyBatis 消除了几乎所有的JDBC代码和参数的手工设置以及结果集的检索。MyBatis 使用简单的 XML或注解用于配置和原始映射，将接口和 Java 的POJOs（Plain Old Java Objects，普通的 Java对象）映射成数据库中的记录

2014-06-12 17:13:41 2044

原创 java多线程：ReentrantReadWriteLock读写锁的使用

读写锁：分为读锁和写锁，多个读锁不互斥，读锁与写锁互斥，这是由jvm自己控制的，你只要上好相应的锁即可。如果你的代码只读数据，可以很多人同时读，但不能同时写，那就上读锁；如果你的代码修改数据，只能有一个人在写，且不能同时读取，那就上写锁。总之，读的时候上读锁，写的时候上写锁！

2014-06-11 10:40:49 1988

原创 ExecutorService 建立多线程线程池的步骤

线程池作用：1.减少了创建和销毁线程的次数，每个工作线程都可以被重复利用，可执行多个任务。2.可以根据系统的承受能力，调整线程池中工作线线程的数目，防止因为消耗过多的内存，而把服务器累趴下(每个线程需要大约1MB内存，线程开的越多，消耗的内存也就越大，最后死机)。Java里面线程池的顶级接口是Executor，但是严格意义上讲Executor并不是一个线程池，而只是一个执行线程的工具。真正的线程池接口是ExecutorService。

2014-06-10 12:32:38 3000

原创 java线程：单例隐藏ThreadLocal实现线程数据共享

A和B需要共享同一线程，同样的另一组A和B共享另一组线程，A和B相互之间不受影响。

2014-06-10 09:26:42 2201

原创 ECharts：企业报表工具

ECharts，纯Javascript图表库，基于Canvas，底层依赖ZRender，商业产品常用图表库，提供直观，生动，可交互，可个性化定制的数据可视化图表。创新的拖拽重计算、数据视图、值域漫游等特性大大增强了用户体验，赋予了用户对数据进行挖掘、整合的能力。图表类型支持折线图（区域图）、柱状图（条状图）、散点图（气泡图）、K线图、饼图（环形图）、地图、力导向布局图，同时支持任意维度的堆积和多图表混合展现。

2014-06-09 17:12:03 2280

原创 ThreadLocal实现：java线程范围内的共享数据,线程外独立

场景应用：银行转账时，A给B转账，C给D转账。两者都是调用的connection.begainTransaction();connection.commit();如何才能保证A,B同在一个线程中，C、D同在一个线程中，且A,BC,D在线程内共享，在线程外独立。

2014-06-08 15:42:49 1297

原创 java多线程经典案例

java多线程典型案例：子线程执行10次，主线程执行100次，两者交替50次。

2014-06-08 14:27:31 2707

转载 Twitter Storm

在这个教程里面我们将学习如何创建Topologies, 并且把topologies部署到storm的集群里面去。Java将是我们主要的示范语言，个别例子会使用python以演示storm的多语言特性。准备工作这个教程使用storm-starter项目里面的例子。我推荐你们下载这个项目的代码并且跟着教程一起做。先读一下：配置storm开发环境和新建一个strom项目这两篇文章把你的

2014-06-05 13:42:50 788

转载 Apache Mahout 实现的机器学习算法

Mahout实现的机器学习算法集：算法大类算法名称中文名称分类算法Logistic Regression逻辑回归 Bayesian贝叶斯 SVM支持向量机 Perceptron感知器算法 Neural Network神经网络 Random Forests

2014-06-05 12:38:18 1114

转载 hadoop作业调优参数整理及原理（整个mapreduce运行流程都讲的清楚，一步一步优化）

1 Map side tuning参数1.1 MapTask运行内部原理

2014-06-04 15:42:02 1784

原创单独配置secondarynamenode

这是在我之前yarn框架上通过添加节点，修改相关的配置文件，使得secondarynamenode独立出来的，所以这里前期的一系列琐碎配置请参考我之前的博客：http://blog.csdn.net/u014078192/article/details/27992567我会在这基础上讲述如何将secondarynamenode抽调出来。

2014-06-04 11:11:15 2098

转载 Hadoop配置项(mapred-site.xml)

Hadoop配置项(mapred-site.xml)namevalueDescriptionhadoop.job.history.location job历史文件保存路径，无可配置参数，也不用写在配置文件里，默认在logs的history文件夹下。hadoop.job.history.user.location 用户历史文件存

2014-06-03 10:54:50 1973

转载 Hadoop配置项(hdfs-site.xml)

name valueDescription dfs.default.chunk.view.size32768namenode的http访问页面中针对每个文件的内容显示大小，通常无需设置。dfs.datanode.du.reserved1073741824每块磁盘所保留的空间大小，需要设置一些，主要是给非hdfs文件使用，默认是不保留，0字节

2014-06-03 10:52:21 1888

转载 Hadoop配置项(core-site.xml)

namevalue Description fs.default.namehdfs://hadoopmaster:9000定义HadoopMaster的URI和端口 fs.checkpoint.dir/opt/data/hadoop1/hdfs/namesecondary1定义hado

2014-06-03 10:48:57 3824

原创 java.io.FileNotFoundException: /home/hadoop/hadoop/dfs/namenode/current/VERSION (Permission denied)

java.io.FileNotFoundException: /home/hadoop/hadoop/dfs/namenode/current/VERSION (Permission denied)

2014-06-02 22:06:09 6369

原创 hadoop备战：yarn框架的搭建（mapreduce2）

x86台式机，window7 64位系统wmware虚拟机(x86的台式机至少是4G内存，才能开2台虚机)centos6.4操作系统hadoop-2.2.0.tar.gzjdk-6u24-linux-i586.binWinScp 远程文件传输工具，很好用。可以用于windows和虚拟机Linux之间文件相互拷贝。

2014-06-01 22:30:38 1842

原创 hadoop备战：yarn框架的简介（mapreduce2）

hadoop yarn的重构，根本的思想是将 JobTracker 两个主要的功能分离成单独的组件，这两个功能是资源管理和任务调度 / 监控。新的资源管理器全局管理所有应用程序计算资源的分配，每一个应用的 ApplicationMaster 负责相应的调度和协调。一个应用程序无非是一个单独的传统的 MapReduce 任务或者是一个 DAG( 有向无环图 ) 任务。ResourceManager 和每一台机器的节点管理服务器能够管理用户在那台机器上的进程并能对计算进行组织。

2014-06-01 21:37:08 3139

转载 hadoop集群默认配置和常用的配置

获取默认配置配置hadoop，主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件，默认下来，这些配置文件都是空的，所以很难知道这些配置文件有哪些配置可以生效，上网找的配置可能因为各个hadoop版本不同，导致无法生效。浏览更多的配置，有两个方法:1.选择相应版本的hadoop,下载解压后，搜索*.xml,找到core-default

2014-05-31 21:46:02 1077

转载 Hadoop的三种作业调度原理汇总

一个MapRedcue作业是通过JobClient向master的JobTracker提交的（JobTracker一直在等待JobClient通过RPC协议提交作业），JobTracker接到JobClient的请求后把其加入作业队列中。Datanode节点的TaskTracker一直通过RPC向JobTracker发送heartbeat询问有没有任务可做，如果有则让其派发任务过来，Tas

2014-05-30 22:34:43 4175 1

转载 hadoop应用（云计算大会）

第六届中国云计算大会于2014年5月20-23日在北京国家会议中心拉开帷幕。

2014-05-30 10:48:34 1297

原创 hadoop备战：hbase的分布式安装经验

配置HBase时，首先考虑的肯定是Hbase版本与你所装的hadoop版本是否匹配，这一点我在之前的博客中已经说明清楚，hadoop版本与hbase版本的匹配度，那是官方提供的。下面的实验就是本人没参照版本匹配尝试投机的方法，出现了错误。

2014-05-29 19:10:50 2292

原创实现windows操作系统和VB下Linux虚拟操作系统相互传取文件方式总结

实现windows操作系统和Linux虚拟操作系统相互传取文件方式总结

2014-05-28 10:33:15 1870

原创 hadoop备战：hadoop,hbase兼容版本汇总

Hbase的安装需要考虑Hadoop的版本，即兼容性。以下考究官网得到的，关于hadoop版本和hbase版本可到以下网址中下载：http://mirror.bit.edu.cn/apache/hbase

2014-05-27 22:05:11 1517

转载 hadoop下运行多个SecondaryNameNode的配置

光从字面上来理解，很容易让一些初学者先入为主的认为：SecondaryNameNode（snn）就是NameNode（nn）的热备进程。其实不是。snn是HDFS架构中的一个组成部分，但是经常由于名字而被人误解它真正的用途，其实它真正的用途，是用来保存namenode中对HDFS metadata的信息的备份，并减少namenode重启的时间。对于hadoop进程中，要配置好并正确的使用 snn

2014-05-26 18:48:05 964

原创 hadoop备战：一台x86计算机搭建hadoop的全分布式集群

一台x86计算机搭建hadoop的全分布式集群

2014-05-25 22:32:07 3381

原创虚拟化实践：云桌面安装

虚拟机工程实践：虚拟桌面云的简单安装

2014-05-25 11:16:21 6686

转载构建一个跨机房的Hadoop集群，有非常多的技术难点（颠覆你以往的认知）

本文作者罗李，花名鬼厉，阿里分布式团队创建之初的第一批员工，从事分布式计算、分布式存储和Hadoop系统的研发，目前负责分布式存储团队的所有技术和管理。

2014-05-23 16:42:32 7800

转载 Hadoop备战：RPC机制

第一部分：什么是RPC RPC (Remote Procedure Call Protocol) – 远程过程协议调用。通过 RPC 我们可以从网络上的计算机请求服务，而不需要了解底层网络协议。 Hadoop 底层的交互都是通过 rpc 进行的。例如： datanode 和 namenode 、 tasktracker和 jobtracker 、 secondar

2014-05-23 15:17:43 738

原创 Hadoop备战：hdfs常用命令（可能有你不知道的）

除介绍的命令外，还有许多bin/hadoop.dfs命令，以上介绍的只是帮助你开始使用HDFS，运行bin/hadoop dfs不带任何参数会列出所有FsShell系统提供的命令，当你遇到问题时执行bin/hadoop dfs –help commandName会显示这个命令的用法。下面是所有命令的介绍，介绍之前先定义一下参数的意义：1. 斜体：表示用户输入的变量。

2014-05-22 19:34:13 1200

转载 Hadoop：Hbase&Hive

Hbase数据管理 Hbase就是Hadoop database。与传统的mysql、oracle究竟有什么差别。即列式数据与行式数据由什么区别。NoSql数据库与传统关系型数据由什么区别：Hbase VS Oracle 1、 Hbase适合大量插入同时又有读的情况。输入一个Key获取一个value或输入一些key获得一些value。 2

2014-05-22 15:39:31 873

转载 Hive的安装与使用

Hive的安装与使用hive是一个SQL解析引擎，可以在hive中创建表，执行sql语句。创建的表是存储在hdfs中，执行的sql语句是通过MapReduce执行的。可以通过执行sql语句来代替编写MapReduce作业，太方便了！1.解压缩、设置环境hive使用的版本是hive-0.9.0.tar.gz。我们在/usr/local目录下解压缩、重命名

2014-05-16 17:14:55 833

转载 ZooKeeper的分布模式安装

ZooKeeper的分布模式安装ZooKeeper(以下简称ZK)是一个分布式协调服务框架，可以做到各节点之间的数据强一致性。简单的理解就是在一个节点修改某个变量的值后，在其他节点可以最新的变化，这种变化是事务性的。通过在ZK节点上注册监听器，就可以获得数据的变化。1.确定集群结构我们打算在三个节点安装ZK，分别是192.168.1.221(hadoop1)、1

2014-05-16 17:13:36 819

转载开源的Spark（最新技术）与hadoop

Spark是一个基于内存计算的开源的集群计算系统，目的是让数据分析更加快速。Spark非常小巧玲珑，由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala，项目的core部分的代码只有63个Scala文件，非常短小精悍。Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面

2014-05-12 11:19:28 1509

原创试探与回溯_找出更大差三角

package cn.itcast.demo;/** * 3 1 4 5 6 2 看出什么特征吗？首先，它包含了1~6的连续整数。重要的是：每个数字都是其下方相邻的两个数字的差（当然是大数减去小数） * 满足这样特征的三角形，称为：差三角。 * */public class chaTriangle {static boolean check1(int[

2014-05-11 16:15:15 849

原创最短路径_求最小值(牵马从a到b,求最短时间)

package cn.itcast.demo;/* n匹马从A村运往B村每次骑1匹马牵1匹马，回来时骑1匹马。已知每匹马从A村到B村需要的时间（数字越大越慢）两匹马同行时只能迁就较慢者。求最小的运输时间。输入：41425程序应该输出：12*/import java.util.*;

2014-05-09 21:31:15 1464

softmax回归

pyltp无需编译直接安装

Storm定时匹配插入mysql,源数据录入hdfs

hadoop2.5.1编译的插件包

复旦已分类文本训练语料

hadoop权威指南

空空如也