- 博客(27)
- 资源 (1)
- 收藏
- 关注
原创 Spark读取文件
1.textFile: 其定义为:def textFile(path: String, minPartitions: Int = defaultMinPartitions): RDD[String];从HDFS,本地或者任何Hadoop支持的文件系统URI读取文件,返回String RDD。 2.wholeTextFiles: 其定义为:def wholeTextFiles(p
2015-07-04 12:05:22 3413
原创 避免GroupByKey
//wordCountsWithReduce val words = Array("one", "two", "two", "three", "three", "three")val wordPairsRDD = sc.parallelize(words).map(word => (word, 1))val wordCountsWithReduce = wordPairsRDD.reduce
2015-06-01 11:48:14 626
原创 ant 的实用例子
<javac classpath="${classpath}"encoding="utf-8" sourcepath="" source="1.7" target="1.7" srcdir="src" debug="on" destdir="${build.dir}">
2015-05-29 00:22:23 414
原创 spark如何wordcount中文
典型的wordcount英文的例子 val conf = new SparkConf().setAppName("FirstApp").setMaster("local") val sc = new SparkContext(conf) val c = sc.textFile("hdfs://hadoop1:9000/input/sparkwc").flatMap(_.split("
2015-05-27 20:10:36 1012
原创 scala函数定义与使用
1.scala函数的完整定义:def 函数名 (参数名:参数类型):函数返回值类型 ={函数体}2.必须选项:def 函数名此处为定义一个不带参数,不带返回值的函数:例如def m{println("hello world")}不带参数可以省略(),但是调用的时候就不可以以 函数名() 的方式调用定义函数的时候带有(),调用的时候,可以使用 函数名() 或者直接函数名的
2015-05-17 11:01:25 3715
原创 为何eclipse 不能把scala文件打包
我的需求很简单,建立一个scala工程,写一个简单的object,带上main方法,但是这样eclipse 不能导出成jar 包,求各种大神拯救。
2015-05-12 09:08:13 2338 1
原创 OGM 与mongodb
1.利用hibernate ogm提供的example:使用eclipse导入example。2.maven会下载依赖包,以下是相关的依赖包3.main类添加jvm运行的参数,原因是The other implementation, TwoStacksPlainDatagramSocketImpl, does implement setTimeToLive()
2015-04-18 11:06:32 732
原创 Text与Int WritableComparable 重写的比较
1.TextPairpublic class TextPair implements WritableComparable { private Text first; private Text second; public TextPair() { set(new Text(), new Text()); } public Tex
2015-03-06 12:02:10 804
原创 距离和相似系数
一、距离和相似系数r语言中使用dist(x, method = "euclidean",diag = FALSE, upper = FALSE, p = 2) 来计算距离。其中x是样本矩阵或者数据框。method表示计算哪种距离。method的取值有:euclidean 欧几里德距离,就是平方再开方。maximum 切
2015-03-06 11:52:11 685
原创 jiebaR 中文分词
jiebaR 中文分词 0.3 版本发布,此版本更新内容如下:install.packages("jiebaR") library(jiebaRD)qseg [1] "江州" "市长" "江大桥" "参加" "了" "长江大桥" "的" [8] "通车" "仪式" #把文
2015-03-06 11:50:09 2581 1
原创 WordCountHBase
public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {// TODO Auto-generated method stubString tablename = "test2";Configuration conf = new Con
2015-03-06 11:46:40 435
原创 从hdfs中读取文件到hbase
核心代码:1.只有mapperpublic void map(LongWritable key, Text value, OutputCollector output, Reporter reporter) throws IOException { if (isValidLine(value.to
2015-03-06 11:43:02 725
原创 hbase过滤器
HBase过滤器(filter)提供了非常强大的特性来帮助用户提高其处理表中的数据的效率。用户不仅可以使用HBase中预定义好的过滤器,而且可以实现自定义的过滤器。1.行过滤器(RowFilter)行过滤器基于行键来过滤数据。使用多种比较运算符(equal, greater, not equal, etc)来返回符合条件 的行键,同时会过滤不符合条件的行键。可以使用WhileMat
2015-01-17 14:55:33 578
原创 HBase in action学习之如何设计一个关注列表
1.设计一个关注列表 行键使用用户id表示 列限定名(列名)使用数字 还需要增加一个计数列count,用来对列的操作,即关注与取消关注的操作2.查询该用户的关注列表 Get g = new Get(Bytes.toBytes(用户id)); Result result = htable.get(g);3.查询用户是否关注了某用户 Get g
2015-01-13 11:02:50 514
原创 hibernate search 01
1.使用Hibernate SessionFullTextSession fullTextSession = Search.getFullTextSession(session);Transaction tx = fullTextSession.beginTransaction();QueryBuilder qb = fullTextSession.getSearchFacto
2015-01-05 16:24:47 540
原创 Hibernate Search 5.0
Hibernate Search 5.0.0.Final在2014-12-16发布,以下是一些新特性:1.升级到支持4.10的Lucene2.大量的内部改进,特别是性能3.由于Hibernate Search的抽象,大部分代码应该很容易升级,尽管在Lucene的API的巨大变化4.现在数值属性使用NumericField域作为索引5.兼容Hibernate
2015-01-05 15:35:24 422
原创 oracle的一些操作
1.查看有哪些表select table_name from user_tables;2.根据给定的表,创建一个表结构相同,没有内容的表create table emp10 as select * from emp where 1=2;3.根据给定的表和条件,批量插入数据SQL> insert into emp10 select * from emp where deptno=
2014-11-23 22:51:35 387
原创 管理用户
SQL> conn / as sysdba已连接。SQL> drop user itcast0401 cascade;用户已删除。SQL> host clsSQL> --创建一个名叫itcast0401 密码password的用户SQL> create user itcast0401 identified by password;用户已创建。SQL> conn /
2014-11-23 22:36:44 533
原创 在hadoop-2.4.0上搭建hbase-0.98.8(ubuntu)
1.到apache官网下载hbase-0.98.7,如果还没有安装zooKeeper,也需要下载,解压2.修改配置文件: (1) 进入zooKeeper的conf目录,把zoo_sample.cfg拷贝一份,修改为zoo.cfg,vim 修改文件内容,主要修改存储路径: (2)进入hbase的conf目录,修改hbase-env.sh文件,基
2014-11-23 22:25:39 643
原创 来自别人的话,微软也开源了
这个世界上本没有路,走的人多了,于是便成了路...1.框架不是一开始就有的。在java web开发的世界里,最开始就只有一个可用的servlet API,你要开发web应用,就只能靠它了;2.就单单这个简陋的API,开发起来,实在是捉襟见肘。于是在一个个前赴后继的'先烈'往这个坑里跳的同时,一部分人实在看不下去了,于是便有了所谓的框架。其实这个时候的所谓框架就是个框框,帮你解决了一
2014-11-16 01:33:45 456
翻译 MapReduce:超大机群上的简单数据处理(别人翻译的Google论文)
摘要MapReduce是一个编程模型,和处理,产生大数据集的相关实现.用户指定一个map函数处理一个key/value对,从而产生中间的key/value对集.然后再指定一个reduce函数合并所有的具有相同中间key的中间value.下面将列举许多可以用这个模型来表示的现实世界的工作.以这种方式写的程序能自动的在大规模的普通机器上实现并行化.这个运行时系统
2014-11-16 01:27:34 602
lukeall-4.10.3.jar
2014-12-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人