Apache
scalad
github地址:https://github.com/scalad
展开
-
Spark RDD Transformation 详解
这几天学习了Spark RDD transformation 和 action ,做个笔记记录下心得,顺便分享给大家。下面的表格列出了目前所支持的转换和动作(详情请参见 RDD API doc):转换(transformation) 转换含义map(func)返回一个新分布式数据集,由每一个输入元素经过func函数转换后组成f转载 2016-01-05 13:54:35 · 1411 阅读 · 0 评论 -
spark-submit工具参数说明
执行时需要传入的参数说明Usage: spark-submit [options] [app options]参数名称含义--master MASTER_URL可以是spark://host:port, mesos://host:port, yarn, yarn-cluster,yarn-clien转载 2016-01-04 19:31:40 · 827 阅读 · 0 评论 -
hadoop 2.2 错误总结
hadoop 2.2 搭建http://blog.csdn.net/pelick/article/details/120651471但是上面这个配置里面有点小问题问题property> name>yarn.nodemanager.aux-servicesname> value>mapreduce.shufflevalue>转载 2015-12-01 13:27:16 · 736 阅读 · 0 评论 -
用hadoop计算PI值
一、计算PI值的方式与原理 百度一下,计算PI的方法还真不少。但在hadoop examples代码中的注释写的是:是采用 Quasi-Monte Carlo 算法来估算PI的值。 维基百科中对Quasi-Monte Carlo的描述比较理论,好多难懂的公式。 好在google了一把,找到了斯坦福大学网站上的一篇文章:《通过扔飞镖也能得转载 2016-01-01 18:43:31 · 6426 阅读 · 0 评论 -
运行基准测试hadoop
hadoop的发行版本中附带了几个基准测试,可以用来验证hadoop以及评估hadoop的性能。以运行排序基准为例,首先我们使用hadoop作业randomwrite生成一些随机数,然后使用排序实例对它进行排序。1.命令hadoop@master:/usr/hadoop$ hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples原创 2015-12-08 13:59:37 · 1660 阅读 · 0 评论 -
快速理解Docker - 容器级虚拟化解决方案
作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.csdn.net/colorant/是什么简单的说Docker是一个构建在LXC之上的,基于进程容器(Processcontainer)的轻量级VM解决方案 拿现实世界中货物的运输作类比, 为了解转载 2016-08-19 20:23:39 · 595 阅读 · 0 评论 -
使用 Scala 语言开发 Spark 应用程序
本文旨在通过具有实际意义的案例向读者介绍如何使用 Scala 语言开发 Spark 应用程序并在 Spark 集群上运行。本文涉及的所有源数据都将从 HDFS(Hadoop Distributed File System)读取,部分案例的输出结果也会写入到 HDFS, 所以通过阅读本文,读者也会学习到 Spark 和 HDFS 交互的一些知识引言在当前这个信息时代里,大数据所蕴含的转载 2016-03-06 19:48:28 · 3423 阅读 · 0 评论 -
Spark快速入门指南(Quick Start Spark)
这个文档只是简单的介绍如何快速地使用Spark。在下面的介绍中我将介绍如何通过Spark的交互式shell来使用API。Basics Spark shell提供一种简单的方式来学习它的API,同时也提供强大的方式来交互式地分析数据。Spark shell支持Scala和Python。可以通过以下方式进入到Spark shell中。1转载 2015-12-27 15:13:43 · 881 阅读 · 0 评论 -
spark集群环境下Lost task 0.0 in stage 10.0 (TID 17, 10.28.23.202): java.io.FileNotFoundException
spark从当前目录加载文件报错,Lost task 0.0 in stage 10.0 (TID 17, 10.28.23.202): java.io.FileNotFoundException,明显的,找不到本地的文件,但是本地的文件是存在的。scala> val file = sc.textFile("test.txt")15/12/09 13:22:36 INFO MemorySt原创 2015-12-09 13:24:57 · 10130 阅读 · 1 评论 -
Initial job has not accepted any resources; check your cluster UI to ensure that workers are registe
spark在提交任务时,出现如下错误:15/03/26 22:29:36 WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient memory15/03/2转载 2015-12-08 19:00:46 · 3039 阅读 · 0 评论 -
Failed to execute goal org.apache.maven.plugins:maven-javadoc-plugin:2.8.1:jar (module-javadocs) on
在hadoop2.5以及在后面的版本中,hadoop在官网上下载的变成了64位的,无奈,得自己编译,在编译的过程中出现如下的错误:[ERROR] Failed to execute goal org.apache.maven.plugins:maven-javadoc-plugin:2.8.1:jar (module-javadocs) on project hadoop-annotati原创 2015-12-30 16:54:10 · 5088 阅读 · 0 评论 -
Nutch和Lucene的区别
想做一个搜索引擎,最近浏览了许多社区,发现Lucene和Nutch用的很多,而这两个我总感觉难以区分概念,于是在查了些资料。下面是Lucene和Nutch创始人Doug Cutting 的访谈摘录:Lucene其实是一个提供全文文本搜索的函数库,它不是一个应用软件。它提供很多API函数让你可以运用到各种实际应用程序中。现在,它已经成为Apache的一个项目并被广泛应用着。这里列出一些转载 2015-12-30 12:41:44 · 1819 阅读 · 0 评论 -
ERROR org.apache.pig.tools.grunt.Grunt - ERROR 2997: Encountered IOException. File or directory null
pig运行时报错:grunt>ls2015-11-11 20:24:39,159 [main] ERROR org.apache.pig.tools.grunt.Grunt - ERROR 2997: Encountered IOException. File or directory null does not exist.Details at logfile: /silen原创 2015-11-11 20:27:51 · 1734 阅读 · 0 评论 -
eclipse开发mapreduce程序遇到的环境问题
公司是在windows servers 2008上用eclipse进行开发,hadoop集群也是由多台linux服务器组成的真实集群。由于我要开发的程序涉及到hadoop、hbase、solr,理所当然的引入了相关的核心jar包到工程里面,代码也没显示任何异常。但是在运行代码的时候却报了各种错误,之前在自己电脑虚拟机上开发mapreduce程序是没有问题的,现将解决方法记录一下。异常1:转载 2015-11-11 23:51:39 · 762 阅读 · 0 评论 -
hadoop namenode -format错误,找不到或无法加载主类org.apache.hadoop.util.PlatformName
安装hadoop最后步骤格式化hadoop时,报出错误:hadoop namenode -format错误错误: 找不到或无法加载主类 org.apache.hadoop.util.PlatformName错误: 找不到或无法加载主类 org.apache.hadoop.hdfs.server.namenode.NameNode明显的,在当前路径下找不到org.apache.h原创 2015-10-24 09:35:31 · 19146 阅读 · 0 评论 -
Hadoop1.x程序升级到Hadoop2.x需要的依赖库,Cannot initialize Cluster.Please check your configuration for ma
根据官方文档(Apache Hadoop MapReduce - Migrating from ApacheHadoop 1.x to Apache Hadoop 2.x:http://hadoop.apache.org/docs/r2.2.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduce_Compatibilit转载 2015-11-11 23:06:31 · 1356 阅读 · 0 评论 -
互联网 免费的WebService接口
股票行情数据 WEB 服务(支持香港、深圳、上海基金、债券和股票;支持多股票同时查询)Endpoint: http://webservice.webxml.com.cn/WebServices/StockInfoWS.asmx 复制 EndpointDisco: http://webservice.webxml.com.cn/WebServices/StockInfoWS.asmx?disco 复转载 2015-08-23 12:44:53 · 2562 阅读 · 0 评论 -
stopping hbasecat: /tmp/hbase-root-master.pid: No such file or directory
1 pid不存在的问题hadoop停止集群时,报错如下所示: no namenode to stop no datanode to stop no secondery namenode to stop no resourcemanager to stop no nodemanager to stop造成hadoop出现上述这个错误的原因很多转载 2015-10-27 21:27:54 · 20176 阅读 · 0 评论 -
spark RDD transformation和action操作
spark RDD transformation和action1.启用spark-shell,使用根目录下的test.txt作为文件的示例scala> scres30: org.apache.spark.SparkContext = org.apache.spark.SparkContext@68fda8scala> val file = sc.textFile("test.t原创 2015-12-09 14:14:48 · 1066 阅读 · 0 评论 -
Hadoop与Hbase基本配置
在经历了几周的努力之后,终于选择放弃现在安装的稳定版本,转而安装旧版本来部署Hadoop系统。直到昨天,自己还一直为Inconsistent configuration的错误头疼不已。既然同事的版本已经装成功了,那自己也就先用跑通的系统试一下吧,毕竟先放下再回来看现在的问题可能有更好的解决思路吧。今天开始正式重新安装Hadoop与Hbase。之前的安装笔记比较凌乱,今天借着这样的机会把整个步骤重新转载 2015-10-29 09:21:45 · 655 阅读 · 0 评论 -
Server IPC version 9 cannot communicate with client version 4
Hbase启动报错:Server IPC version 9 cannot communicate with client version 4,错误的信息如下:2015-10-28 20:12:00,741 ERROR [main] regionserver.HRegionServerCommandLine: Region server exitingorg.apache.hadoop原创 2015-10-28 20:44:31 · 4233 阅读 · 0 评论 -
wampserver服务无法启动(端口冲突问题)
wampserver服务无法启动,安装完wampserver之后,wampserver显示的是红色的图标,关掉原来电脑上的mysql服务之后,重新启动显示的是黄色的图标,查看了下mysql的server后,发现mysql已经可以正常的使用,但是apach的server却显示的是未启动,点击了Start /Resume Service之后还是无法启动,这应该是端口冲突的问题,使用nets原创 2015-04-25 19:30:48 · 2011 阅读 · 0 评论