- 博客(13)
- 资源 (6)
- 收藏
- 关注
转载 Spark入门之十:聚类算法之kmeans的简介以及使用
聚类算法聚类,Cluster analysis,有时也被翻译为簇类,其核心任务是:将一组目标object划分为若干个簇,每个簇之间的object尽可能的相似,簇与簇之间的 object尽可能的相异。聚类算法是机器学习(或者说是数据挖掘更合适)中重要的一部分,除了最为简单的K-Means聚类算法外,较常见的还有:层次 法(CURE、CHAMELEON等)、网格算法(STING、WaveClust
2015-11-17 17:34:20 6892
转载 Spark入门之九:机器学习简介
机器学习概念在维基百科上对机器学习提出以下几种定义:“ 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能 ” 。“ 机器学习是对能通过经验自动改进的计算机算法的研究 ” 。“ 机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。 ” 一种经常引用的英文定义是: A computer program
2015-11-17 17:28:01 2812
原创 Spark入门之八:Spark Streaming 的原理以及应用场景介绍
什么是Spark StreamingSpark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强这两个特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用 Spark的高度抽象原语如:map、re
2015-11-10 17:38:08 9392
原创 Hive入门学习之三:Hive客户端的连接
在Hive入门学习之二:Hive 的部署中讲述了如何搭建一个Hive的环境,本文主要讲解基于metastore启动多个client的方法要求说明centos01中已经配置好了hive环境,需要在该机器上启动metastore服务,接下来需要在centos02,centos03中启动客户端具体步骤拷贝centos01的hive环境到centos02,centos03scp -r
2015-11-08 11:41:24 6206 1
原创 Hive入门学习之二:Hive 的部署
本文主要介绍Hive 的远程安装模式(如果Hive客户端比较多,在每个客户端都安装MySQL服务还是会造成一定的冗余和浪费,这种情况下,就可以更进一步,将MySQL也独立出来,将元数据保存在远端独立的MySQL服务中)版本介绍JDK:1.7.0_55Hadoop:2.6.0Hive:1.2.1具体步骤配置好一个外部的Mysql,并创建hive的database: creat
2015-11-08 11:35:54 1281
转载 Hive入门学习之一:Hive的简述与架构
Hive架构与基本组成 下面是Hive的架构图。图1.1 Hive体系结构 Hive的体系结构可以分为以下几部分: (1)用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是CLI,Cli启动的时候,会同时启动一个Hive副本。Client是Hive的客户端,用户连接至Hive Server。在启动 Client模式
2015-11-08 11:31:01 4373
转载 Spark入门之七:了解SparkSQL运行计划及调优
优化过程中常用到方法查看查询的整个运行计划 scala>query.queryExecution 查看查询的Unresolved LogicalPlan scala>query.queryExecution.logical查看查询的Analyzed LogicalPlanscala>query.queryExecution.analyzed查看优化后的LogicalPlan
2015-11-07 21:10:48 6885
原创 Spark入门之六:SparkSQL实战
介绍SparkSQL引入了一种新的RDD——SchemaRDD,SchemaRDD由行对象(Row)以及描述行对象中每列数据类型的Schema组成;SchemaRDD很象传统数据库中的表。SchemaRDD可以通过RDD、Parquet文件、JSON文件、或者通过使用hiveql查询hive数据来建立。SchemaRDD除了可以和RDD一样操作外,还可以通过registerTempTa
2015-11-07 21:07:31 3447
转载 Spark入门之五:SparkSQL的原理以及架构
1、SparkSQL的发展历程1.1 Hive and SharkSparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O,降低的运行效率,为了提高SQL-on-Hadoop的效
2015-11-07 21:03:47 7846
原创 Spark 入门之四:Spark任务调度架构
以Spark集群的方式运行standlone 的运行:bin/spark-shell --master spark://hadoop1:7077 --executor-memory 3g运行在Yarn上yarn-client的运行:bin/spark-shell --master yarn-client --executor-memory 3g --num-ex
2015-11-07 20:51:36 1347
原创 Spark 入门之三:Spark运行框架
基本名词Job : 包含多个 Task 组成的并行计算,往往由 Spark action 催生。Stage : Job 的调度单位,对应于 TaskSet 。TaskSet :一组关联的、相互之间没有 shuffle 依赖关系的任务组成的任务集。Task : 被送到某个 executor 上的工作单元运行流程简单流程完整流程DAGScheduler的
2015-11-07 20:47:23 1404
转载 Spark 入门之二:Spark RDD详解
RDD是什么 RDD:Spark的核心概念是RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。 为什么会产生RDD传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流模型,使得在迭代计算式要进行大量的磁盘IO操
2015-11-07 20:42:50 4214 2
原创 Spark 入门之一:CentOS 6.5 下Spark 1.4 的安装以及配置
机器配置集群全部使用VM虚拟机环境进行部署主机名角色配置centos01NameNode,JournalNode,Master,ResourceManager,QuorumPeerMain2G,1核,20Gcentos02Worker,NodeManager,DataNode,Q
2015-11-07 20:32:34 2588
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人