2016年09月_攻城的蒂巴格

11月 10月 09月 08月 07月 06月 05月

原创 spark学习笔记（5）WordCount for Spark

import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContext;import java.util.Arrays;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;i

2016-09-30 11:34:28 819

原创 spark学习笔记（4）IntelliJ IDEA搭建Spark开发环境

基于IntelliJ IDEA开发Spark的Maven项目——Scala语言1、Maven管理项目在JavaEE普遍使用，开发Spark项目也不例外，而Scala语言开发Spark项目的首选。因此需要构建Maven-Scala项目来开发Spark项目，本文采用的工具是IntelliJ IDEA 2016，IDEA工具越来越被大家认可，开发Java, Python ,scala

2016-09-29 14:36:47 12235 3

原创 Intellij Idea

最近迷上大数据，打算搭建spark环境，据说Intellj IDEA可以完美驾驭，那就试试吧。编程的道路上每一个微不足道的Hello World都让我兴奋。

2016-09-28 19:17:02 554

转载 IntelliJ IDEA 常用设置讲解

说明IntelliJ IDEA 有很多人性化的设置我们必须单独拿出来讲解，也因为这些人性化的设置让我们这些 IntelliJ IDEA 死忠粉更加死心塌地使用它和分享它。常用设置IntelliJ IDEA 的代码提示和补充功能有一个特性：区分大小写。如上图标注 1 所示，默认就是 First letter 区分大小写的。区分大小写的情况是这样的：比如我们在 Java 代码文

2016-09-28 17:23:04 1484 2

原创 Ubuntu16.04下Java环境安装与配置

1、下载jdk。2、验证java是否安装，使用java -version命令，如下图所示说明没有安装：3、在usr目录中创建一个jdk-8目录，如下图所示：4、配置系统环境变量，编辑/etc/profile文件，在文件的末尾添加一下信息：export JAVA_HOME=/usr/jdk1.8.0_101expor

2016-09-28 16:16:40 88153

转载多线程面试题整理汇总

作为一名优秀的JAVA程序员多线程永远都是面试官爱问的问题，接下来一段时间准备好好整理一下。在典型的Java面试中，面试官会从线程的基本概念问起, 如：为什么你需要使用线程，如何创建线程，用什么方式创建线程比较好（比如：继承thread类还是调用Runnable接口），然后逐渐问到并发问题像在Java并发编程的过程中遇到了什么挑战，Java内存模型，JDK1.5引入了哪些更高阶的并

2016-09-27 17:47:28 1445

转载 Ubuntu16.04 全屏

vmware虚拟机显示屏幕太小的问题可以通过安装"VMware Tool"来解决，安装该插件后，你就可以根据自身需要自由切换显示屏幕的尺寸，还可以和本机进行相互间的拷贝操作，这里以vSphere Client中的VM虚拟机Ubuntu为例，逐步讲解“VMware Too”的安装流程。1. VM菜单栏中选择安装VMware Tool1点击V

2016-09-27 17:45:00 9054

原创 spark学习笔记（2）spark基本概念和术语解释

在学习大数据一些常用的概念或术语还是要理解和掌握的，这对解析的学习是很帮助。这也是我最近发现的，在接下来的大数据学习中，我将把这一块的知识点提到前面来。1、spark三种部署方式：standalone、spark on mesos、spark on yarn2、Master主控节点、Worker工作节点、客户端节点；（1）其中Master主控节点，顾名思义，类似于领导者，在整个集群中

2016-09-27 16:17:05 1462

原创 spark学习笔记（3）spark核心数据结构RDD

RDD是什么RDD：Spark的核心概念是RDD (resilient distributed dataset)，指的是一个只读的，可分区的分布式数据集，这个数据集的全部或部分可以缓存在内存中，在多次计算间重用。（1）传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点，但是其最大缺点是采用非循环式的数据流模型，使得在迭代计算式要进行大量的磁盘IO操作。RDD正是解决这一缺点

2016-09-27 15:02:14 3717

原创 spark学习笔记（1）初来乍到

spark的诞生随着大数据的发展，人们对大数据的处理要求也越来越高，原有的批处理框架MapReduce适合离线计算，却无法满足实时性要求较高的业务，如实时推荐、用户行为分析等。spark是基于map reduce算法实现的分布式计算框架。和Hadoop MapReduce类似，但是spark的诞生解决在Hadoop在计算速度上的劣势。spark的数据可以保存在内存上，而不是读

2016-09-27 11:31:22 828

原创 hadoop运行的幕后角色

Hadoop这头大象奔跑起来，需要在集群中运行一系列后台(deamon）程序。不同的后台程序扮演不用的角色，这些角色由NameNode、DataNode、 Secondary NameNode、JobTracker、TaskTracker组成。其中NameNode、Secondary NameNode、JobTracker运行在Master节点上，而在每个Slave节点上，部署一个Data

2016-09-19 17:40:01 1821

原创 Map-Reduce数据流(data flow)

Map-Reduce的处理过程主要涉及以下四个部分：客户端Client：用于提交Map-reduce任务jobJobTracker：协调整个job的运行，其为一个Java进程，其main class为JobTrackerTaskTracker：运行此job的task，处理input split，其为一个Java进程，其main class为TaskTrackerHDFS：hadoop分布式

2016-09-14 15:00:14 867

转载 HDFS学习笔记（8）mapreduce原理

1、Map-Reduce的逻辑过程假设我们需要处理一批有关天气的数据，其格式如下：按照ASCII码存储，每行一条记录每一行字符从0开始计数，第15个到第18个字符为年第25个到第29个字符为温度，其中第25位是符号+/-0067011990999991950051507+0000+0043011990999991950051512+0022+004301

2016-09-14 11:53:37 726

转载 HDFS学习笔记（7）mapreduce

1、hadoop是一种分布式系统的平台，通过它可以很轻松的搭建一个高效、高质量的分布系统，而且它还有许多其它的相关子项目，也就是对它的功能的极大扩充，包括Zookeeper,Hive,Hbase等。2、MapReduce是hadoop的核心组件之一，hadoop要分布式包括两部分，一是分布式文件系统hdfs,一部是分布式计算框，就是mapreduce,缺一不可，也就是说，可以通过mapre

2016-09-13 16:27:22 582

原创 HDFS学习笔记（6）AVRO

一、引言1、简介Avro是Hadoop中的一个子项目，也是Apache中一个独立的项目，Avro是一个基于二进制数据传输高性能的中间件。在Hadoop的其他项目中例如HBase(Ref)和Hive(Ref)的Client端与服务端的数据传输也采用了这个工具。Avro是一个数据序列化的系统。Avro 可以将数据结构或对象转化成便于存储或传输的格式。Avro设计之初就用来支持数据密集

2016-09-13 14:14:49 2692

转载 HDFS学习笔记（5）IO读写操作之数据压缩

Hadoop 作为一个较通用的海量数据处理平台，每次运算都会需要处理大量数据，我们会在 Hadoop 系统中对数据进行压缩处理来优化磁盘使用率，提高数据在磁盘和网络中的传输速度，从而提高系统处理数据的效率。在使用压缩方式方面，主要考虑压缩速度和压缩文件的可分割性。综合所述，使用压缩的优点如下：1. 节省数据占用的磁盘空间；2. 加快数据在磁盘和网络中的传输速度，从而提高系统的处理速度。

2016-09-13 13:51:37 3830 1

原创 HDFS学习笔记（4）IO读写操作之checksum

Datanode在把数据实际存储之前会验证数据的校验和（checksum的初始值？）。client通过pipeline把数据写入datanode. 最后一个datanode会负责检查校验和。当client从datanode读取数据时,也会检查校验和:把真实数据的校验和同datanode上的校验和进行比较。每个datanode都保存有一个checksum验证的持久化日志，日志中有当前datano

2016-09-13 11:59:50 1957

转载 HDFS学习笔记（3）HDFS数据流读写

一、数据流读取Configuration conf = newConfiguration();FileSystem fs = FileSystem.get(conf);FSDataInputStream in = fs.open(new Path(uri));步骤如下：1、客户端调用FileSystem的get()方法得到一个实例

2016-09-08 17:42:21 824