自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (6)
  • 收藏
  • 关注

转载 Spark入门之十:聚类算法之kmeans的简介以及使用

聚类算法聚类,Cluster analysis,有时也被翻译为簇类,其核心任务是:将一组目标object划分为若干个簇,每个簇之间的object尽可能的相似,簇与簇之间的 object尽可能的相异。聚类算法是机器学习(或者说是数据挖掘更合适)中重要的一部分,除了最为简单的K-Means聚类算法外,较常见的还有:层次 法(CURE、CHAMELEON等)、网格算法(STING、WaveClust

2015-11-17 17:34:20 6892

转载 Spark入门之九:机器学习简介

机器学习概念在维基百科上对机器学习提出以下几种定义:“ 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能 ” 。“ 机器学习是对能通过经验自动改进的计算机算法的研究 ” 。“ 机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。 ”     一种经常引用的英文定义是: A computer program

2015-11-17 17:28:01 2812

原创 Spark入门之八:Spark Streaming 的原理以及应用场景介绍

什么是Spark StreamingSpark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强这两个特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用 Spark的高度抽象原语如:map、re

2015-11-10 17:38:08 9392

原创 Hive入门学习之三:Hive客户端的连接

在Hive入门学习之二:Hive 的部署中讲述了如何搭建一个Hive的环境,本文主要讲解基于metastore启动多个client的方法要求说明centos01中已经配置好了hive环境,需要在该机器上启动metastore服务,接下来需要在centos02,centos03中启动客户端具体步骤拷贝centos01的hive环境到centos02,centos03scp -r 

2015-11-08 11:41:24 6206 1

原创 Hive入门学习之二:Hive 的部署

本文主要介绍Hive 的远程安装模式(如果Hive客户端比较多,在每个客户端都安装MySQL服务还是会造成一定的冗余和浪费,这种情况下,就可以更进一步,将MySQL也独立出来,将元数据保存在远端独立的MySQL服务中)版本介绍JDK:1.7.0_55Hadoop:2.6.0Hive:1.2.1具体步骤配置好一个外部的Mysql,并创建hive的database: creat

2015-11-08 11:35:54 1281

转载 Hive入门学习之一:Hive的简述与架构

Hive架构与基本组成    下面是Hive的架构图。图1.1 Hive体系结构    Hive的体系结构可以分为以下几部分:    (1)用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是CLI,Cli启动的时候,会同时启动一个Hive副本。Client是Hive的客户端,用户连接至Hive Server。在启动 Client模式

2015-11-08 11:31:01 4373

转载 Spark入门之七:了解SparkSQL运行计划及调优

优化过程中常用到方法查看查询的整个运行计划 scala>query.queryExecution 查看查询的Unresolved LogicalPlan scala>query.queryExecution.logical查看查询的Analyzed LogicalPlanscala>query.queryExecution.analyzed查看优化后的LogicalPlan

2015-11-07 21:10:48 6885

原创 Spark入门之六:SparkSQL实战

介绍SparkSQL引入了一种新的RDD——SchemaRDD,SchemaRDD由行对象(Row)以及描述行对象中每列数据类型的Schema组成;SchemaRDD很象传统数据库中的表。SchemaRDD可以通过RDD、Parquet文件、JSON文件、或者通过使用hiveql查询hive数据来建立。SchemaRDD除了可以和RDD一样操作外,还可以通过registerTempTa

2015-11-07 21:07:31 3447

转载 Spark入门之五:SparkSQL的原理以及架构

1、SparkSQL的发展历程1.1 Hive and SharkSparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O,降低的运行效率,为了提高SQL-on-Hadoop的效

2015-11-07 21:03:47 7846

原创 Spark 入门之四:Spark任务调度架构

以Spark集群的方式运行standlone 的运行:bin/spark-shell --master spark://hadoop1:7077 --executor-memory 3g运行在Yarn上yarn-client的运行:bin/spark-shell --master yarn-client --executor-memory 3g --num-ex

2015-11-07 20:51:36 1347

原创 Spark 入门之三:Spark运行框架

基本名词Job : 包含多个 Task 组成的并行计算,往往由 Spark action 催生。Stage : Job 的调度单位,对应于 TaskSet 。TaskSet :一组关联的、相互之间没有 shuffle 依赖关系的任务组成的任务集。Task : 被送到某个 executor 上的工作单元运行流程简单流程完整流程DAGScheduler的

2015-11-07 20:47:23 1404

转载 Spark 入门之二:Spark RDD详解

RDD是什么 RDD:Spark的核心概念是RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。 为什么会产生RDD传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流模型,使得在迭代计算式要进行大量的磁盘IO操

2015-11-07 20:42:50 4214 2

原创 Spark 入门之一:CentOS 6.5 下Spark 1.4 的安装以及配置

机器配置集群全部使用VM虚拟机环境进行部署主机名角色配置centos01NameNode,JournalNode,Master,ResourceManager,QuorumPeerMain2G,1核,20Gcentos02Worker,NodeManager,DataNode,Q

2015-11-07 20:32:34 2588

codis for pika 二进制包

针对PIKA编译的Codis二进制文件,版本信息如下: Codis版本:3.2 Pika版本:3.0.16

2019-12-11

Netty in Action中文版(高清带目录-可拷贝-中文)

Netty in Action的高清中文版PDF,带目录。该资源仅仅用于学习用途,请勿用于商业用途

2018-03-06

iReport-Ultimate-Guide-3.5

iReport-Ultimate-Guide-3.5

2013-03-02

java cook book

java 的经典代码手册,不过是english版本的,可能需要你有一定的英语阅读能力

2012-02-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除