自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 资源 (1)
  • 收藏
  • 关注

原创 Spark读取文件

1.textFile: 其定义为:def textFile(path: String, minPartitions: Int = defaultMinPartitions): RDD[String];从HDFS,本地或者任何Hadoop支持的文件系统URI读取文件,返回String RDD。 2.wholeTextFiles: 其定义为:def wholeTextFiles(p

2015-07-04 12:05:22 3413

原创 避免GroupByKey

//wordCountsWithReduce val words = Array("one", "two", "two", "three", "three", "three")val wordPairsRDD = sc.parallelize(words).map(word => (word, 1))val wordCountsWithReduce = wordPairsRDD.reduce

2015-06-01 11:48:14 625

原创 ant 的实用例子

<javac classpath="${classpath}"encoding="utf-8" sourcepath="" source="1.7" target="1.7" srcdir="src" debug="on" destdir="${build.dir}">

2015-05-29 00:22:23 414

原创 spark如何wordcount中文

典型的wordcount英文的例子 val conf = new SparkConf().setAppName("FirstApp").setMaster("local") val sc = new SparkContext(conf) val c = sc.textFile("hdfs://hadoop1:9000/input/sparkwc").flatMap(_.split("

2015-05-27 20:10:36 1012

原创 scala的一些例子

scala食谱的例子

2015-05-27 20:06:02 527

原创 scala函数定义与使用

1.scala函数的完整定义:def 函数名 (参数名:参数类型):函数返回值类型 ={函数体}2.必须选项:def 函数名此处为定义一个不带参数,不带返回值的函数:例如def m{println("hello world")}不带参数可以省略(),但是调用的时候就不可以以 函数名() 的方式调用定义函数的时候带有(),调用的时候,可以使用 函数名() 或者直接函数名的

2015-05-17 11:01:25 3715

原创 为何eclipse 不能把scala文件打包

我的需求很简单,建立一个scala工程,写一个简单的object,带上main方法,但是这样eclipse 不能导出成jar 包,求各种大神拯救。

2015-05-12 09:08:13 2338 1

原创 OGM 与mongodb

1.利用hibernate ogm提供的example:使用eclipse导入example。2.maven会下载依赖包,以下是相关的依赖包3.main类添加jvm运行的参数,原因是The other implementation, TwoStacksPlainDatagramSocketImpl, does implement setTimeToLive()

2015-04-18 11:06:32 731

原创 今天访问不了github

记录一下不能上github

2015-03-28 14:26:15 676 1

原创 文章标题

neo4j这个nosql数据库不好吗,怎么这方面的资料这么少?

2015-03-20 20:58:04 336

原创 Text与Int WritableComparable 重写的比较

1.TextPairpublic class TextPair implements WritableComparable {  private Text first;  private Text second;    public TextPair() {    set(new Text(), new Text());  }    public Tex

2015-03-06 12:02:10 804

原创 距离和相似系数

一、距离和相似系数r语言中使用dist(x, method = "euclidean",diag = FALSE, upper = FALSE, p = 2) 来计算距离。其中x是样本矩阵或者数据框。method表示计算哪种距离。method的取值有:euclidean                欧几里德距离,就是平方再开方。maximum                切

2015-03-06 11:52:11 684

原创 jiebaR 中文分词

jiebaR 中文分词 0.3 版本发布,此版本更新内容如下:install.packages("jiebaR") library(jiebaRD)qseg [1] "江州"     "市长"     "江大桥"   "参加"     "了"       "长江大桥" "的"      [8] "通车"     "仪式"    #把文

2015-03-06 11:50:09 2579 1

原创 WordCountHBase

public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {// TODO Auto-generated method stubString tablename = "test2";Configuration conf = new Con

2015-03-06 11:46:40 435

原创 从hdfs中读取文件到hbase

核心代码:1.只有mapperpublic void map(LongWritable key, Text value,                OutputCollector output, Reporter reporter)                throws IOException {            if (isValidLine(value.to

2015-03-06 11:43:02 725

原创 hbase过滤器

HBase过滤器(filter)提供了非常强大的特性来帮助用户提高其处理表中的数据的效率。用户不仅可以使用HBase中预定义好的过滤器,而且可以实现自定义的过滤器。1.行过滤器(RowFilter)行过滤器基于行键来过滤数据。使用多种比较运算符(equal, greater, not equal, etc)来返回符合条件 的行键,同时会过滤不符合条件的行键。可以使用WhileMat

2015-01-17 14:55:33 578

原创 HBase in action学习之如何设计一个关注列表

1.设计一个关注列表  行键使用用户id表示  列限定名(列名)使用数字  还需要增加一个计数列count,用来对列的操作,即关注与取消关注的操作2.查询该用户的关注列表  Get g = new Get(Bytes.toBytes(用户id));  Result result = htable.get(g);3.查询用户是否关注了某用户   Get g

2015-01-13 11:02:50 512

原创 Jetty vs Tomcat



2015-01-05 16:41:15 435

原创 hibernate search 01

1.使用Hibernate SessionFullTextSession fullTextSession = Search.getFullTextSession(session);Transaction tx = fullTextSession.beginTransaction();QueryBuilder qb = fullTextSession.getSearchFacto

2015-01-05 16:24:47 540

原创 Hibernate Search 5.0

Hibernate Search 5.0.0.Final在2014-12-16发布,以下是一些新特性:1.升级到支持4.10的Lucene2.大量的内部改进,特别是性能3.由于Hibernate Search的抽象,大部分代码应该很容易升级,尽管在Lucene的API的巨大变化4.现在数值属性使用NumericField域作为索引5.兼容Hibernate

2015-01-05 15:35:24 422

原创 oracle的一些操作

1.查看有哪些表select table_name from user_tables;2.根据给定的表,创建一个表结构相同,没有内容的表create table emp10 as select * from emp where 1=2;3.根据给定的表和条件,批量插入数据SQL> insert into emp10 select * from emp where deptno=

2014-11-23 22:51:35 387

原创 管理用户

SQL> conn / as sysdba已连接。SQL> drop user itcast0401 cascade;用户已删除。SQL> host clsSQL> --创建一个名叫itcast0401 密码password的用户SQL> create user itcast0401 identified by password;用户已创建。SQL> conn /

2014-11-23 22:36:44 531

原创 在hadoop-2.4.0上搭建hbase-0.98.8(ubuntu)

1.到apache官网下载hbase-0.98.7,如果还没有安装zooKeeper,也需要下载,解压2.修改配置文件:       (1) 进入zooKeeper的conf目录,把zoo_sample.cfg拷贝一份,修改为zoo.cfg,vim 修改文件内容,主要修改存储路径:           (2)进入hbase的conf目录,修改hbase-env.sh文件,基

2014-11-23 22:25:39 643

原创 来自别人的话,微软也开源了

这个世界上本没有路,走的人多了,于是便成了路...1.框架不是一开始就有的。在java web开发的世界里,最开始就只有一个可用的servlet API,你要开发web应用,就只能靠它了;2.就单单这个简陋的API,开发起来,实在是捉襟见肘。于是在一个个前赴后继的'先烈'往这个坑里跳的同时,一部分人实在看不下去了,于是便有了所谓的框架。其实这个时候的所谓框架就是个框框,帮你解决了一

2014-11-16 01:33:45 456

翻译 MapReduce:超大机群上的简单数据处理(别人翻译的Google论文)

摘要MapReduce是一个编程模型,和处理,产生大数据集的相关实现.用户指定一个map函数处理一个key/value对,从而产生中间的key/value对集.然后再指定一个reduce函数合并所有的具有相同中间key的中间value.下面将列举许多可以用这个模型来表示的现实世界的工作.以这种方式写的程序能自动的在大规模的普通机器上实现并行化.这个运行时系统

2014-11-16 01:27:34 602

原创 忘记了root密码,强行进入!更以前的RHEL5,6不太相同

1.重启系统2.

2014-11-16 01:03:28 483

转载 新型MPP数据库将支撑起大数据时代

新型MPP数据库

2014-11-09 19:54:28 1148

lukeall-4.10.3.jar

luke是一个可以查看lucene索引的工具,lucene开发必备。 但是,从code.google.com上可以下载luke的版本过旧。lukeall-4.10.3.jar是对目前最新版本的支持。

2014-12-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除