Hadoop&Spark
文章平均质量分 63
ae5555
这个作者很懒,什么都没留下…
展开
-
hadoop 部署
基础组件准备安装Hadoop集群之前我们得先检验系统是否安装了如下的必备软件:ssh、rsync和Jdk1.6(因为Hadoop需要使用到Jdk中的编译工具,所以一般不直接使用Jre)。可以使用yum install rsync来安装rsync。一般来说ssh是默认安装到系统中的。集群配置一般NameNode会部署到一台单独的服务器上而不与DataNode共同同一机器。另外Map/Re原创 2015-01-07 21:17:18 · 460 阅读 · 0 评论 -
scala&spark相关
scalatest 版本要和scala版本一致。scalac error : bad option: ‘-make:transitive’ 在pom.xml中,删除-make:transitive一般而言,saveAsTextFile会按照执行task的多少生成多少个文件,比如part-00一直到part-0n,n自然就是task的个数,亦即是最后的stage的分区数。//做完计算之后将数据原创 2016-11-07 20:09:59 · 356 阅读 · 0 评论 -
Spark/Streaming
Spark Streaming 是基于Spark处理流式数据的框架,对数据进行实时处理。Streamingstreaming将数据离散化并转换为一个个RDD,然后分批处理这些RDD。数据源:1.外部文件系统,如HDFS。Streaming可以监控一个目录中新产生的数据,并及时处理。出错时重新读取数据。2.网络系统。Streaming会默认在两个不同节点加载数据到内存,一原创 2015-07-20 17:07:33 · 580 阅读 · 0 评论 -
Spark
Spark特点1.Spark是为集群计算中的特定类型的工作负载而设计,即在并行操作之间重用工作数据集的工作负载。为了优化这些类型的工作负载,Spark引进了内存集群计算的概念,可在内存集群计算中将数据集缓存在内存中,以缩短访问延迟。2.Spark提供的数据集操作类型有很多种。3.Spark充分利用内存进行缓存,比较合适做迭代式的运算,有相当一部分机器学习算法是通过多次迭代收敛的算法,适原创 2015-05-05 14:44:21 · 606 阅读 · 0 评论 -
Spark:Transformation和Action
Transformation操作:map(func) 对调用map的RDD数据集中的每个element都使用func,然后返回一个新的RDD。groupByKey(numTasks) 返回(K,Seq[V]),相当于hadoop中的reduce函数接收K-V对,输出K-Vlist。reduceByKey(func,[numTasks]) 在groupByKey产生的(K,S原创 2015-05-06 20:39:55 · 399 阅读 · 0 评论 -
spark/MLlib分类与回归、聚类
二分分类: SVM、逻辑回归、决策树、贝叶斯多类分类:决策树、贝叶斯回归:线性最小二乘法二分分类线性SVMMLlib支持两个线性方法:线性支持向量机SVM和逻辑回归。在MLlib中,训练标签用1表示积极,用0表示消极。线性SVM是大规模分类任务的标准方法。L ( w ; x , y ) = max { 0 , 1 − y w T原创 2015-07-19 19:31:10 · 1922 阅读 · 0 评论 -
Spark/RDD
每一个Spark应用(Job),都是由一个驱动程序(Driver)构成,它运行用户的main函数。RDD,是一个元素集合,划分到集群的各个节点上,可以被并行操作。两种类型的RDD,并行集合(Scala集合)和hadoop数据集。这两种类型的RDD都可以通过相同的方式进行操作。并行集合并行集合是通过调用SparkContext的parallelize方法,在一个已经存在的Sc原创 2015-05-06 21:14:41 · 441 阅读 · 0 评论 -
Spark代码总结(1)
SparkconfSpark配置项类,SparkContext类接收配置项内容,控制驱动程序。一旦Sparkconf对象被创建提交,它的内容不能被修改。Spark不支持动态配置SparkConf。SparkConf定义了属性,setMaster是对spark.master的设置;setAppName是对属性spark.app.name的设置。setMaster(String原创 2015-07-14 16:02:47 · 516 阅读 · 0 评论 -
Hadoop优化
1.hadoop的inputformat提供了在block的基础上更细粒度控制mapper输入块的大小,设置split的大小范围。FileInputFormat.setMaxInputSplitSize(job,size)FileInputFormat.setMinInputSplitSize(job,size)这种方法可以控制mapper的数量。也可以在配置文件中配置,mapre原创 2015-05-19 17:36:52 · 500 阅读 · 0 评论 -
Spark/Java8 lambda表达式
lambda表达式的本质是一个“语法糖”,由编译器转换为常规的代码,由此可以编写更少的代码来实现同样的功能。lambda表达式是SAM类型,SAM类型是一个具有单一抽象方法的接口。lambda表达式在运行期表示为一个函数接口,函数接口是一种只定义一个抽象方法的接口。同时,增加了新注解@FunctionalInterface,防止往这个接口添加方法。lambda表达式的语法由参数列表原创 2015-05-19 16:47:47 · 1527 阅读 · 0 评论 -
Hdfs/代码总结
1.计算hdfs上文件大小对每个文件,filestatus.getLen()。2.获取当前正在运行job的数量Configuration conf=new Configuration();conf.set("mapred.job.tracker","URL");JobClient client=new JobClient(new JobConf(conf));cli原创 2015-05-18 16:23:47 · 450 阅读 · 0 评论 -
hadoop 运行引用了第三方库的jar
在project里面建立一个lib文件夹,然后把所有引用的jar包放到里面,hadoop会自动加载lib依赖的jar。原创 2015-04-14 00:05:53 · 418 阅读 · 0 评论 -
hdfs一些命令
1.查看hdfs文件系统根目录内容hdfs dfs -ls /2.查看文件内容hdfs dfs -cat path ,-cat对象必须是文件,不能对目录查看。-du path 显示目录中所有文件大小-count path 显示目录中文件数量-mv 移动文件-cp 复制文件-rm原创 2015-03-21 23:16:57 · 383 阅读 · 0 评论 -
hadoop 机架
通常大型的分布式集群都会跨好几个机架,由多个机架上的机器共同组成一个分布式集群。机架内的机器之间的网络速度通常都会高于跨机架机器之间的网络速度,并且机架之间机器的网络通信通常受到上层交换机间网络带宽的限制。hadoop对机架的感知并非是自适应的,需要hadoop的管理者人为的告知hadoop哪台机器属于哪个rack,这样在hadoop的namenode启动初始化时,会将这些机器与rack的对应原创 2015-01-07 10:23:20 · 1133 阅读 · 0 评论 -
HDFS
设计目标1.硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。2.HDFS应用对文件要求的是write-one-read-many访问模型。3.移动计算的代价比之移动数据的代价低。一个应用请求的计算,离它操作的数据越近就越高效,这在数据达到海量级别的时候更是如此。将计算移动原创 2015-01-06 10:34:41 · 667 阅读 · 0 评论 -
Hadoop Streaming/fs
文件分发与打包如果程序运行所需要的可执行文件、脚本或者配置文件在Hadoop集群的计算节点上不存在,则首先需要将这些文件分发到集群上才能成功进行计算。Hadoop提供了自动分发文件和压缩包的机制,只需要在启动Streaming作业时配置相应的参数。Streaming主要用于编写简单,短小的MapReduce程序,可以通过脚本语言编程,开发更快捷,并充分利用非Java库。转载 2015-01-18 00:27:14 · 518 阅读 · 0 评论 -
hadoop启动脚本
一、start-all.sh运行启动hdfs和mapred的启动脚本。hdfs start-dfs.shmapred start-mapred.sh二、start-dfs.sh此脚本只支持upgrade和rollback两个选项参数,一个参数用于更新文件系统,另一个是回滚文件系统。此脚本运行开始启动namenode、datanode和secondaryn原创 2015-01-17 21:09:32 · 374 阅读 · 0 评论 -
Spark Sql
SparkSQL有两个分支,sqlContext和hiveContext , sqlContext支持SQL语法解析器,hiveContext支持SQL语法解析器和hiveSQL语法解析器。原创 2016-11-11 15:26:31 · 337 阅读 · 0 评论