2015年11月_铁猴

11月 08月 07月 06月 05月 04月 03月 02月 01月

转载 Spark入门之十：聚类算法之kmeans的简介以及使用

聚类算法聚类，Cluster analysis，有时也被翻译为簇类，其核心任务是：将一组目标object划分为若干个簇，每个簇之间的object尽可能的相似，簇与簇之间的 object尽可能的相异。聚类算法是机器学习（或者说是数据挖掘更合适）中重要的一部分，除了最为简单的K-Means聚类算法外，较常见的还有：层次法（CURE、CHAMELEON等）、网格算法（STING、WaveClust

2015-11-17 17:34:20 6892

转载 Spark入门之九：机器学习简介

机器学习概念在维基百科上对机器学习提出以下几种定义：“ 机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能 ” 。“ 机器学习是对能通过经验自动改进的计算机算法的研究 ” 。“ 机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。 ” 一种经常引用的英文定义是： A computer program

2015-11-17 17:28:01 2812

原创 Spark入门之八：Spark Streaming 的原理以及应用场景介绍

什么是Spark StreamingSpark Streaming类似于Apache Storm，用于流式数据的处理。根据其官方文档介绍，Spark Streaming有高吞吐量和容错能力强这两个特点。Spark Streaming支持的数据输入源很多，例如：Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用 Spark的高度抽象原语如：map、re

2015-11-10 17:38:08 9392

原创 Hive入门学习之三：Hive客户端的连接

在Hive入门学习之二：Hive 的部署中讲述了如何搭建一个Hive的环境，本文主要讲解基于metastore启动多个client的方法要求说明centos01中已经配置好了hive环境，需要在该机器上启动metastore服务，接下来需要在centos02,centos03中启动客户端具体步骤拷贝centos01的hive环境到centos02,centos03scp -r

2015-11-08 11:41:24 6206 1

原创 Hive入门学习之二：Hive 的部署

本文主要介绍Hive 的远程安装模式（如果Hive客户端比较多，在每个客户端都安装MySQL服务还是会造成一定的冗余和浪费，这种情况下，就可以更进一步，将MySQL也独立出来，将元数据保存在远端独立的MySQL服务中）版本介绍JDK:1.7.0_55Hadoop:2.6.0Hive:1.2.1具体步骤配置好一个外部的Mysql,并创建hive的database: creat

2015-11-08 11:35:54 1281

转载 Hive入门学习之一：Hive的简述与架构

Hive架构与基本组成下面是Hive的架构图。图1.1 Hive体系结构 Hive的体系结构可以分为以下几部分：（1）用户接口主要有三个：CLI，Client 和 WUI。其中最常用的是CLI，Cli启动的时候，会同时启动一个Hive副本。Client是Hive的客户端，用户连接至Hive Server。在启动 Client模式

2015-11-08 11:31:01 4373

转载 Spark入门之七：了解SparkSQL运行计划及调优

优化过程中常用到方法查看查询的整个运行计划 scala>query.queryExecution 查看查询的Unresolved LogicalPlan scala>query.queryExecution.logical查看查询的Analyzed LogicalPlanscala>query.queryExecution.analyzed查看优化后的LogicalPlan

2015-11-07 21:10:48 6885

原创 Spark入门之六：SparkSQL实战

介绍SparkSQL引入了一种新的RDD——SchemaRDD，SchemaRDD由行对象（Row）以及描述行对象中每列数据类型的Schema组成；SchemaRDD很象传统数据库中的表。SchemaRDD可以通过RDD、Parquet文件、JSON文件、或者通过使用hiveql查询hive数据来建立。SchemaRDD除了可以和RDD一样操作外，还可以通过registerTempTa

2015-11-07 21:07:31 3447

转载 Spark入门之五：SparkSQL的原理以及架构

1、SparkSQL的发展历程1.1 Hive and SharkSparkSQL的前身是Shark，给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具，Hive应运而生，它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O，降低的运行效率，为了提高SQL-on-Hadoop的效

2015-11-07 21:03:47 7846

原创 Spark 入门之四：Spark任务调度架构

以Spark集群的方式运行standlone 的运行：bin/spark-shell --master spark://hadoop1:7077 --executor-memory 3g运行在Yarn上yarn-client的运行：bin/spark-shell --master yarn-client --executor-memory 3g --num-ex

2015-11-07 20:51:36 1347

原创 Spark 入门之三：Spark运行框架

基本名词Job ：包含多个 Task 组成的并行计算，往往由 Spark action 催生。Stage ： Job 的调度单位，对应于 TaskSet 。TaskSet ：一组关联的、相互之间没有 shuffle 依赖关系的任务组成的任务集。Task ：被送到某个 executor 上的工作单元运行流程简单流程完整流程DAGScheduler的

2015-11-07 20:47:23 1404

转载 Spark 入门之二：Spark RDD详解

RDD是什么 RDD：Spark的核心概念是RDD (resilientdistributed dataset)，指的是一个只读的，可分区的分布式数据集，这个数据集的全部或部分可以缓存在内存中，在多次计算间重用。为什么会产生RDD传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点，但是其最大缺点是采用非循环式的数据流模型，使得在迭代计算式要进行大量的磁盘IO操

2015-11-07 20:42:50 4214 2

原创 Spark 入门之一：CentOS 6.5 下Spark 1.4 的安装以及配置

机器配置集群全部使用VM虚拟机环境进行部署主机名角色配置centos01NameNode，JournalNode，Master，ResourceManager，QuorumPeerMain2G，1核，20Gcentos02Worker，NodeManager，DataNode，Q

2015-11-07 20:32:34 2588

codis for pika 二进制包

针对PIKA编译的Codis二进制文件，版本信息如下： Codis版本：3.2 Pika版本：3.0.16

2019-12-11

Netty in Action中文版(高清带目录-可拷贝-中文)

Netty in Action的高清中文版PDF,带目录。该资源仅仅用于学习用途，请勿用于商业用途

2018-03-06

iReport-Ultimate-Guide-3.5

2013-03-02

java cook book

java 的经典代码手册,不过是english版本的,可能需要你有一定的英语阅读能力

2012-02-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人