y七心海棠-CSDN博客

原创 Spark读取文件

1.textFile：其定义为:def textFile(path: String, minPartitions: Int = defaultMinPartitions): RDD[String]；从HDFS，本地或者任何Hadoop支持的文件系统URI读取文件，返回String RDD。 2.wholeTextFiles：其定义为:def wholeTextFiles(p

2015-07-04 12:05:22 3461

原创避免GroupByKey

//wordCountsWithReduce val words = Array("one", "two", "two", "three", "three", "three")val wordPairsRDD = sc.parallelize(words).map(word => (word, 1))val wordCountsWithReduce = wordPairsRDD.reduce

2015-06-01 11:48:14 663

原创 ant 的实用例子

2015-05-29 00:22:23 455

原创 spark如何wordcount中文

典型的wordcount英文的例子 val conf = new SparkConf().setAppName("FirstApp").setMaster("local") val sc = new SparkContext(conf) val c = sc.textFile("hdfs://hadoop1:9000/input/sparkwc").flatMap(_.split("

2015-05-27 20:10:36 1054

原创 scala的一些例子

scala食谱的例子

2015-05-27 20:06:02 562

原创 scala函数定义与使用

1.scala函数的完整定义:def 函数名 (参数名:参数类型):函数返回值类型 ={函数体}2.必须选项:def 函数名此处为定义一个不带参数，不带返回值的函数:例如def m{println("hello world")}不带参数可以省略()，但是调用的时候就不可以以函数名() 的方式调用定义函数的时候带有()，调用的时候，可以使用函数名() 或者直接函数名的

2015-05-17 11:01:25 3774

原创为何eclipse 不能把scala文件打包

我的需求很简单，建立一个scala工程，写一个简单的object，带上main方法，但是这样eclipse 不能导出成jar 包，求各种大神拯救。

2015-05-12 09:08:13 2372 1

原创 OGM 与mongodb

1.利用hibernate ogm提供的example:使用eclipse导入example。2.maven会下载依赖包，以下是相关的依赖包3.main类添加jvm运行的参数，原因是The other implementation, TwoStacksPlainDatagramSocketImpl, does implement setTimeToLive()

2015-04-18 11:06:32 767

原创今天访问不了github

记录一下不能上github

2015-03-28 14:26:15 715

原创文章标题

neo4j这个nosql数据库不好吗，怎么这方面的资料这么少？

2015-03-20 20:58:04 357

原创 Text与Int WritableComparable 重写的比较

1.TextPairpublic class TextPair implements WritableComparable { private Text first; private Text second; public TextPair() { set(new Text(), new Text()); } public Tex

2015-03-06 12:02:10 835

原创距离和相似系数

一、距离和相似系数r语言中使用dist(x, method = "euclidean",diag = FALSE, upper = FALSE, p = 2) 来计算距离。其中x是样本矩阵或者数据框。method表示计算哪种距离。method的取值有：euclidean 欧几里德距离，就是平方再开方。maximum 切

2015-03-06 11:52:11 727

原创 jiebaR 中文分词

jiebaR 中文分词 0.3 版本发布，此版本更新内容如下：install.packages("jiebaR") library(jiebaRD)qseg [1] "江州" "市长" "江大桥" "参加" "了" "长江大桥" "的" [8] "通车" "仪式" #把文

2015-03-06 11:50:09 2653

原创 WordCountHBase

public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {// TODO Auto-generated method stubString tablename = "test2";Configuration conf = new Con

2015-03-06 11:46:40 470

原创从hdfs中读取文件到hbase

核心代码：1.只有mapperpublic void map(LongWritable key, Text value, OutputCollector output, Reporter reporter) throws IOException { if (isValidLine(value.to

2015-03-06 11:43:02 753

原创 hbase过滤器

HBase过滤器(filter)提供了非常强大的特性来帮助用户提高其处理表中的数据的效率。用户不仅可以使用HBase中预定义好的过滤器，而且可以实现自定义的过滤器。1.行过滤器(RowFilter)行过滤器基于行键来过滤数据。使用多种比较运算符(equal, greater, not equal, etc)来返回符合条件的行键，同时会过滤不符合条件的行键。可以使用WhileMat

2015-01-17 14:55:33 608

原创 HBase in action学习之如何设计一个关注列表

1.设计一个关注列表行键使用用户id表示列限定名（列名）使用数字还需要增加一个计数列count，用来对列的操作，即关注与取消关注的操作2.查询该用户的关注列表 Get g = new Get(Bytes.toBytes(用户id)); Result result = htable.get(g);3.查询用户是否关注了某用户 Get g

2015-01-13 11:02:50 545

原创 Jetty vs Tomcat

2015-01-05 16:41:15 454

原创 hibernate search 01

1.使用Hibernate SessionFullTextSession fullTextSession = Search.getFullTextSession(session);Transaction tx = fullTextSession.beginTransaction();QueryBuilder qb = fullTextSession.getSearchFacto

2015-01-05 16:24:47 570

原创 Hibernate Search 5.0

Hibernate Search 5.0.0.Final在2014-12-16发布，以下是一些新特性：1.升级到支持4.10的Lucene2.大量的内部改进，特别是性能3.由于Hibernate Search的抽象，大部分代码应该很容易升级，尽管在Lucene的API的巨大变化4.现在数值属性使用NumericField域作为索引5.兼容Hibernate

2015-01-05 15:35:24 452

原创 oracle的一些操作

1.查看有哪些表select table_name from user_tables;2.根据给定的表，创建一个表结构相同，没有内容的表create table emp10 as select * from emp where 1=2;3.根据给定的表和条件，批量插入数据SQL> insert into emp10 select * from emp where deptno=

2014-11-23 22:51:35 411

原创管理用户

SQL> conn / as sysdba已连接。SQL> drop user itcast0401 cascade;用户已删除。SQL> host clsSQL> --创建一个名叫itcast0401 密码password的用户SQL> create user itcast0401 identified by password;用户已创建。SQL> conn /

2014-11-23 22:36:44 875

原创在hadoop-2.4.0上搭建hbase-0.98.8(ubuntu)

1.到apache官网下载hbase-0.98.7，如果还没有安装zooKeeper，也需要下载,解压2.修改配置文件: (1) 进入zooKeeper的conf目录，把zoo_sample.cfg拷贝一份，修改为zoo.cfg，vim 修改文件内容,主要修改存储路径: (2)进入hbase的conf目录，修改hbase-env.sh文件，基

2014-11-23 22:25:39 675

原创来自别人的话，微软也开源了

这个世界上本没有路，走的人多了，于是便成了路...1.框架不是一开始就有的。在java web开发的世界里，最开始就只有一个可用的servlet API，你要开发web应用，就只能靠它了；2.就单单这个简陋的API，开发起来，实在是捉襟见肘。于是在一个个前赴后继的'先烈'往这个坑里跳的同时，一部分人实在看不下去了，于是便有了所谓的框架。其实这个时候的所谓框架就是个框框，帮你解决了一

2014-11-16 01:33:45 472

翻译 MapReduce:超大机群上的简单数据处理(别人翻译的Google论文)

摘要MapReduce是一个编程模型,和处理,产生大数据集的相关实现.用户指定一个map函数处理一个key/value对,从而产生中间的key/value对集.然后再指定一个reduce函数合并所有的具有相同中间key的中间value.下面将列举许多可以用这个模型来表示的现实世界的工作.以这种方式写的程序能自动的在大规模的普通机器上实现并行化.这个运行时系统

2014-11-16 01:27:34 650