hadoop
文章平均质量分 63
后打开撒打发了
有些人注定要生活在彼岸 可以亲近可以爱怜 甚至可以穷尽一生去思念 只是无法触及 有些距离 注定不能跨越 只能俩俩相望 就像有些爱只能养在心里 长在眼中 不要捧在手里 放在身边 注定只能邂逅 无法遭遇
展开
-
mac下安装hadoop(一)
一、配置java环境我安装的是JDK:1.8.0_111 网上java环境的配置教程很多 配置好JAVA_HOME环境变量 验证java 和javac在.bash_profile中加上JAVA_HOME= 这里填你的jdk安装安装路径CLASSPAHT=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarPATH原创 2017-10-10 22:16:42 · 1121 阅读 · 0 评论 -
Spark资料收藏--------Spark运行架构
1、 Spark运行架构1.1 术语定义lApplication:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码;lDriver:Spark中的Driver即运行上述Application的main()函数并且创建SparkCon转载 2018-01-31 15:40:17 · 476 阅读 · 1 评论 -
Spark RDD使用详解--RDD原理
RDD简介 在集群背后,有一个非常重要的分布式数据架构,即弹性分布式数据集(Resilient Distributed Dataset,RDD)。RDD是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西,它表示已被分区,不可变的并能够被并行操作的数据集合,不同的数据集格式对应不同的RDD实转载 2018-01-16 15:47:47 · 8647 阅读 · 1 评论 -
lucene学习总结篇--lucene全文检索的基本原理和lucene API简单的使用
一、常用的jar包先介绍一下常用的几个文件jar包。下面有maven pom.xml参考lucene-core:其中包括了常用的文档,索引,搜索,存储等相关核心代码lucene-analyzers-common:这里面包含了各种语言的词法分析器,用于对文件内容进行关键字切分,提取。lucene-highlighter:这个jar包主要用于搜索出的内容高亮显示。原创 2018-01-05 18:59:16 · 4069 阅读 · 0 评论 -
Spark算子:RDD基本转换操作map、flatMap
import org.apache.spark._object rdd_test { System.setProperty("hadoop.home.dir", "C:\\hadoop_home\\") def main(args: Array[String]) { /* * Spark算子:RDD基本转换操作之 map、flatMap、原创 2017-12-29 18:11:18 · 13554 阅读 · 0 评论 -
windows下使用idea maven配置spark运行环境、运行WordCount例子以及碰到的问题
# 一、安装JAVA JDK 、Maven 、scala 这些安装都比较简单都可以去官网下载最新版本的安装包一一安装就可以了。scala官网下载地址:http://www.scala-lang.org/download/ # 二、安装idea scala 插件 setting—>plugins页面点击下面的角Browse repositories… 选项搜原创 2017-12-28 17:05:50 · 3821 阅读 · 0 评论 -
Spark算子:RDD行动Action操作学习–countByKey、foreach、sortBy
package chenimport org.apache.spark._object rdd_test { System.setProperty ("hadoop.home.dir", "C:\\hadoop_home\\") def main(args: Array[String]) { /* * countByKey fo原创 2017-12-28 19:39:11 · 472 阅读 · 0 评论 -
HBase原理和设计
简介HBase —— Hadoop Database的简称,Google BigTable的另一种开源实现方式,从问世之初,就为了解决用大量廉价的机器高速存取海量数据、实现数据分布式存储提供可靠的方案。从功能上来讲,HBase不折不扣是一个数据库,与我们熟悉的Oracle、MySQL、MSSQL等一样,对外提供数据的存储和读取服务。而从应用的角度来说,HBase与一般的数据库又有所区别,H转载 2018-01-03 10:23:52 · 474 阅读 · 0 评论 -
运行hadoop作业 No job jar file set. User classes may not be found. See Job or
气死人,之前都是好好的,突然出现这个问题,莫名奇妙;明明在代码中设置了:job.setJarByClass(xxxxxxx.class);还是报错:No job jar file set.错误WARN mapreduce.JobResourceUploader: No job jar file set. User classes may not be found. See Job原创 2017-12-31 21:38:00 · 5636 阅读 · 0 评论 -
hadoop权威指南上 天气例子测试运行
一、先代码准备好。 代码在本文后面 我的hadoop路劲是/Users/chenxun/software/hadoop-2.8.1 所以我在这个建了个自己文件夹myclass目录,把代码放到这个目录下面。如图所示:[chenxun@chen.local 17:21 ~/software/hadoop-2.8.1/myclass]$lltotal 64-rw-r--r-- 1 chenxun原创 2017-10-15 17:25:36 · 1191 阅读 · 0 评论 -
mac下hadoop环境的搭建以及碰到的坑点
提示:这里有Exit code: 127 Stack trace: ExitCodeException exitCode=127: 错误的解决的方法,在文章最后面一、首先要配置好java环境 下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html mac电脑直接jdk-8u1原创 2017-10-15 00:29:16 · 15037 阅读 · 9 评论 -
mac电脑设置 ssh localhost免密码登陆 hadoop需要
1. ssh-keygen -t rsa Press enter for each line 提示输入直接按回车就好2. cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys3. chmod og-wx ~/.ssh/authorized_keys如果ssh localhost还需要密码 查看一下你.s原创 2017-10-14 11:43:28 · 2700 阅读 · 1 评论 -
ELK(ElasticSearch, Logstash, Kibana)搭建实时日志分析平台
摘要: 前段时间研究的Log4j+Kafka中,有人建议把Kafka收集到的日志存放于ES(ElasticSearch,一款基于Apache Lucene的开源分布式搜索引擎)中便于查找和分析,在研究此方案可行性的时候,我发现ELK(ElasticSearch, Logstash, Kibana)平台恰好可以同时实现日志收集、日志搜索和日志分析的功能,于是又去学习了一番。之后发现如果使用这三者,收转载 2017-10-20 08:59:53 · 453 阅读 · 0 评论 -
hadoop上安装hive2.3.2学习总结—hive安装+mysql以及碰到坑点
一、环境准备hapdoop版本:基于hadoop2.8.1,本教程是基于hadoop2.8.1上安装的hivehive版本:apache-hive-2.3.2-bin.tar.gz二、安装配置hive+mysql(远程模式)1、首先安装好mysql数据库2、去hive官网下载hive安装包:apache-hive-2.3.2-bin.tar.gztar -zxvf ap原创 2018-01-29 00:30:18 · 4550 阅读 · 0 评论