自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 资源 (2)
  • 收藏
  • 关注

《京华烟云》有感——正中红心,不偏不倚

       看完京华烟云小说后,忍不住写这个感受时,眼泪不由自主地流。姚木兰同父亲一样,最终得道。父亲是远离群众,一个人打坐沉思得道,而木兰最终为了国家存亡,为了民族的延续,深入群众,得到解脱,失去自我。个人的命运紧紧地同国家存亡息息相关。       为什么就这样结尾了,让我觉得胸闷气短,眼睛始终湿润。       可以说,林语堂从小说开始给我设了一个套,通过姚木兰的精神面貌的改变,...

2014-12-31 14:42:50 183

原创 Metaq服务器端的配置说明server.ini

注:从metaq官网copy下来,便于查看;地址:https://github.com/killme2008/Metamorphosis/wiki/%E9%85%8D%E7%BD%AE%E7%AE%A1%E7%90%86配置管理Web管理平台从1.4.5开始,MetaQ提供了一个Web管理平台,默认运行在8120端口,你可以通过浏览器访问http://...

2014-04-04 11:03:29 506

Storm的可靠性与Ack机制

        Storm可以确保由Spout发送的每条消息都会被所有的Bolts完全处理,但是这需要用户来决定是否需要可靠性机制。如果是简单的统计分析,可靠性要求不是很高,则可以选择使用不可靠的Bolts。       Storm编程中,有各种Bolt,命名格式XXRichBolt或XXBasicBolt。其中,带有Rich的Bolt,是没有可靠性机制的,需要自己手动调用方法collec...

2014-04-01 17:06:01 199

Storm on yarn安装步骤

参考:[1] http://hi.baidu.com/clockfly/item/f977cad1239bd94fddf9beea[2] http://blog.csdn.net/jiushuai/article/details/187293671.     已有的环境 a. 安装有HDFS文件系统b. 安装有YARN,且YARN服务已经开启c. ...

2014-02-14 15:02:34 183

计算字符串相似度【转载】

---------以下部分转载自博客http://www.cnblogs.com/grenet/archive/2010/06/04/1751147.html---------------- 在“文本比较算法Ⅰ——LD算法”中,介绍了编辑距离的计算。  在“文本比较算法Ⅱ——Needleman/Wunsch算法”中,介绍了最长公共子串的计算。  在给定的字符串A和字符串B,LD(A...

2013-11-15 16:33:09 157

原创 字符串相似度匹配算法【转载】

原文链接:http://www.cnblogs.com/grenet/archive/2010/06/04/1751147.html 文章大致内容:1,计算两个字符串的Levenshtein距离。      Levenshtein距离:又叫做编辑距离,指两个字符串A和B中,A到B(或者B到A)的转变至少需要编辑的次         数。编辑操作包括:添加、删除、替换。2,计...

2013-09-26 17:21:54 532

《Hadoop权威指南》——第七章MapReduce的类型与格式

输入类FileInputFormatFileInputFormat是所有使用文件作为数据源的InputFormat实现的基类。1,1基本的输入通过addInputPath(s)和setInputPath(s)四种静态方法设置输入路径。1,2有选择的输入如果需要排除特定文件,可以使用setInputPathFilter()方法设置一个过滤器。注:FileInpu...

2013-09-18 14:37:21 138

原创 MapReduce,组合式,迭代式,链式(转载)

MapReduce,组合式,迭代式,链式 前面介绍一些怎样用户类制定自己的类,来达到减少中间数据:http://www.cnblogs.com/liqizhou/archive/2012/05/14/2499498.html1.迭代式mapreduce    一些复杂的任务难以用一次mapreduce处理完成,需要多次mapreduce才能完成任务,例如Pagrank,...

2013-07-23 10:08:01 98

mahout之Kmeans使用及结果分析

Mahout-Kmeans1,两个输入路径:一个是数据的点;一个是初始集群。     点的输入文件是SequenceFile(Key, VectorWritable)格式;      而初始集群的输入文件格式是SequenceFiles(Text, Cluster | Canopy)2,每次迭代会产生一个输出目录“cluster-N”,输出文件格式为SequenceFile(T...

2013-07-12 19:32:54 446

Oozie的JavaAction使用

1编写自定义功能的main函数功能:得到指定目录的信息(该目录下文件个数、该目录的修改时间),并将信息反馈给oozie。代码如下:package myTest.oozie; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileStatus;import org.ap...

2013-07-08 21:11:06 620

Hive环境搭建

 Hive1.安装(1)安装要求:Java1.6;Hadoop0.20.x(2)安装步骤l  解压$ tar -xzvf hive-x.y.z.tar.gzl  环境变量HIVE_HOME,PATH,JAVA_HOME,HADOOP_HOME$ cd hive-x.y.z$ export HIVE_HOME={{pwd}}$ export PATH=$H...

2013-07-05 10:35:36 84

hadoop环境搭建

背景:三台机器,一个主机名为master,另外两个是slave1和slave2。         将master作为jobtracker和namenode 1,在所有机器上新建用户 useradd hh -g hadoop  2,配置ssh(免密码登陆)  // 在master端生成秘钥ssh-keygen//查看秘钥cd .ssh/cat...

2013-06-14 14:16:08 81

Oozie相关函数

 EL:Expression Languagehttp://oozie.apache.org/docs/3.3.2/WorkflowFunctionalSpec.html#a4.2.1_Basic_EL_ConstantsOozie相关函数1.Decision Node1.1 switch casedefault一定要设置。Example:<workf...

2013-05-17 14:34:37 232

通过HadoopAPI获取task日志内容

 在集群中查看Task日志的方法,一般有两个:1,通过Hadoop提供的WebConsole,直接在页面中追踪查看;2,到集群中运行该task的节点上,查看日志文件。每个tasktracker子进程都会用log4j产生三个日志文件,分别是syslog,stdout,stderr。这些日志文件存放到%HADOOP_LOG_DIR%目录下的userlogs的子目录中。但是通过该方法,需要追踪...

2013-05-16 11:30:38 440

MR实现将同一个key的内容分配到同一个输出文件

MapReduce程序默认的输出文件个数:首先,根据setNumReduceTasks(int num)这个方法,其次,根据Map的输出文件个数。一般情况下,同一个key的数据,可能会被分散到不同的输出文件中。倘若我们要对某一个特定的key的所有value值进行遍历,则需要将包含该key的所有文件作为输入文件。当数据比较庞大时,这样的操作会浪费资源。如果同一个Key的所有的value...

2013-05-15 18:17:08 478

MapReduce实现二次排序及GroupingComparator的误区

之前在网上看到了一篇使用MapReduce实现二次排序的博客,自己尝试实现了,并测试成功,代码有所改动。链接如下:http://blog.csdn.net/zyj8170/article/details/7530728 所谓的二次排序:对Key和Val都进行排序(比如升序),并输出。对Key的自动排序,MapReduce可以替我们解决,但是同时对Val进行排序,则需要其他的做法。...

2013-04-17 11:51:48 351

Mysql去空值

在Mysql中,字段的空值包含两种不同的含义:1,字段值为null;2,字段值为空字符串 去除空值的方法:create table 表B select 列1,列2,IFNULL(列3,'I am NULL') as 列3,IFNULL(列4,-999) as 列4...from 表A;  解释:将表A中,若列3为NULL,则替换成字符串‘I am NULL’...

2013-04-15 13:31:33 3589

Music, come on!

My love(R&B)Num SongSinger1Ring My BellsEnrique Iglesias2Call You Tonight OceanJohnta Austin3Melt The SnowShayne Ward4The Saltwater RoomOwl City&Brean...

2013-04-07 19:04:08 166

MapReduce定制Writable类型

一、《Hadoop权威指南》一书中的示例,测试了一下。定制的Writable类型:TextPair功能:存储一对Text对象。代码如下:package testWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.io.WritableComparable;import java.i...

2013-04-07 17:01:07 158

原创 MapReduce程序-tips

1,Configuration配置文件只有在main或者是run方法中设置才有效;     在map或reduce中只能通过context.getConf()方法获取该Job的配置文件,从而读取常量值。注:千万不能在map或reduce中修改configuration,虽然不报错,但这样是改不了值的补充:类的静态常量与Configuration设置常量的功能是一样的,但前者只能保留...

2013-03-19 16:28:25 68

FM、MF、SVD

SVD(Singular value decomposition):奇异值分解,矩阵分解的算法之一。在数据分析中的输入矩阵A一般是非奇异矩阵,而使用SVD可将A分解成一个对角阵B,形式如下:A = P B Q这里的B是不带有隐特征的,但由于SVD计算量太大,一般都用MF模型MF(Matrix Factorization):也是一种矩阵分解。形式如下:A = (P的转置...

2013-03-08 14:57:11 672

原创 数据库相关题目

题1,如何删除掉一张表重复记录?--创建一个没有指定主键的表,因此可以有多个重复记录;create table cat(catId int,catName varchar(30))--插入多个重复记录insert into cat values(1,'aa') --执行多次insert into cat values(2,'bb') --执行多次--使用disti...

2013-02-26 12:00:57 100

原创 数据库基本语法(SqlServer,MySql)

数据库简单语句:注释(开头--)  1》创建库create database LiangshanHeros   表和列的命名规则(SqlServer 2000):必须以字母,下划线,或者汉字开头(最好是以字母开头);长度不能超过128个字符;不能使用系统保留字;只能使用如下字符A-Z,a-z,0-9,$,#,_等;  2》使用数据库use Liangsh...

2013-02-26 11:43:50 145

原创 获取MySql表结构

import java.sql.*;public class testMySql { public static void main(String[] args) { String driver = "com.mysql.jdbc.Driver"; String userName = "cloud"; String userPasswd = "bigbig";...

2012-11-29 21:34:27 146

Java中Split方法和Scanner类

Split函数和Scanner类都可以使用正则表达式实现字符串分割。例如从命令行接受一行字符串如: 1 2(注意1前面有多个空格,1与2之间有多个空格) Split:[code="java"] InputStreamReader isr=new InputStreamReader(System.in); BufferedReader br=new...

2012-11-13 23:21:03 761

OpenGL 雪景与雪人的绘制

在一个漫天飘雪的冬天,一个孤零零的雪人,伴着天空之城的背景音,让人陷入了无限沉思!!

2011-07-01

数据结构课程设计飞机订票系统

由c语言编写,能够实现基本的操作 例如航班录入,订票退票,查询更改等等

2010-11-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除