自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

leo

不积跬步,无以至千里。不积小流无,以成江海。

  • 博客(19)
  • 资源 (4)
  • 收藏
  • 关注

原创 spark学习笔记(5)WordCount for Spark

import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContext;import java.util.Arrays;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;i

2016-09-30 11:34:28 819

原创 spark学习笔记(4)IntelliJ IDEA搭建Spark开发环境

基于IntelliJ IDEA开发Spark的Maven项目——Scala语言1、Maven管理项目在JavaEE普遍使用,开发Spark项目也不例外,而Scala语言开发Spark项目的首选。因此需要构建Maven-Scala项目来开发Spark项目,本文采用的工具是IntelliJ IDEA 2016,IDEA工具越来越被大家认可,开发Java, Python ,scala

2016-09-29 14:36:47 12235 3

原创 Intellij Idea

最近迷上大数据,打算搭建spark环境,据说Intellj IDEA可以完美驾驭,那就试试吧。编程的道路上每一个微不足道的Hello World都让我兴奋。

2016-09-28 19:17:02 554

转载 IntelliJ IDEA 常用设置讲解

说明IntelliJ IDEA 有很多人性化的设置我们必须单独拿出来讲解,也因为这些人性化的设置让我们这些 IntelliJ IDEA 死忠粉更加死心塌地使用它和分享它。常用设置IntelliJ IDEA 的代码提示和补充功能有一个特性:区分大小写。如上图标注 1 所示,默认就是 First letter 区分大小写的。区分大小写的情况是这样的:比如我们在 Java 代码文

2016-09-28 17:23:04 1484 2

原创 Ubuntu16.04下Java环境安装与配置

1、下载jdk。2、验证java是否安装,使用java -version命令,如下图所示说明没有安装:3、在usr目录中创建一个jdk-8目录,如下图所示:4、配置系统环境变量,编辑/etc/profile文件,在文件的末尾添加一下信息:export JAVA_HOME=/usr/jdk1.8.0_101expor

2016-09-28 16:16:40 88153

转载 多线程面试题整理汇总

作为一名优秀的JAVA程序员多线程永远都是面试官爱问的问题,接下来一段时间准备好好整理一下。    在典型的Java面试中, 面试官会从线程的基本概念问起, 如:为什么你需要使用线程, 如何创建线程,用什么方式创建线程比较好(比如:继承thread类还是调用Runnable接口),然后逐渐问到并发问题像在Java并发编程的过程中遇到了什么挑战,Java内存模型,JDK1.5引入了哪些更高阶的并

2016-09-27 17:47:28 1445

转载 Ubuntu16.04 全屏

vmware虚拟机显示屏幕太小的问题可以通过安装"VMware Tool"来解决,安装该插件后,你就可以根据自身需要自由切换显示屏幕的尺寸,还可以和本机进行相互间的拷贝操作,这里以vSphere Client中的VM虚拟机Ubuntu为例,逐步讲解“VMware Too”的安装流程。1. VM菜单栏中选择安装VMware Tool1点击V

2016-09-27 17:45:00 9054

原创 spark学习笔记(2)spark基本概念和术语解释

在学习大数据一些常用的概念或术语还是要理解和掌握的,这对解析的学习是很帮助。这也是我最近发现的,在接下来的大数据学习中,我将把这一块的知识点提到前面来。1、spark三种部署方式:standalone、spark on  mesos、spark on yarn2、Master主控节点、Worker工作节点、客户端节点;(1)其中Master主控节点,顾名思义,类似于领导者,在整个集群中

2016-09-27 16:17:05 1462

原创 spark学习笔记(3)spark核心数据结构RDD

RDD是什么RDD:Spark的核心概念是RDD (resilient distributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。(1)传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流模型,使得在迭代计算式要进行大量的磁盘IO操作。RDD正是解决这一缺点

2016-09-27 15:02:14 3717

原创 spark学习笔记(1)初来乍到

spark的诞生       随着大数据的发展,人们对大数据的处理要求也越来越高,原有的批处理框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,如实时推荐、用户行为分析等。spark是基于map reduce算法实现的分布式计算框架。和Hadoop MapReduce类似,但是spark的诞生解决在Hadoop在计算速度上的劣势。spark的数据可以保存在内存上,而不是读

2016-09-27 11:31:22 828

原创 hadoop运行的幕后角色

Hadoop这头大 象奔跑起来,需要在集群中运行一系列后台(deamon)程序。不同的后台程序扮演不用的角色,这些角色由NameNode、DataNode、 Secondary NameNode、JobTracker、TaskTracker组成。其中NameNode、Secondary  NameNode、JobTracker运行在Master节点上,而在每个Slave节点上,部署一个Data

2016-09-19 17:40:01 1821

原创 Map-Reduce数据流(data flow)

Map-Reduce的处理过程主要涉及以下四个部分:客户端Client:用于提交Map-reduce任务jobJobTracker:协调整个job的运行,其为一个Java进程,其main class为JobTrackerTaskTracker:运行此job的task,处理input split,其为一个Java进程,其main class为TaskTrackerHDFS:hadoop分布式

2016-09-14 15:00:14 867

转载 HDFS学习笔记(8)mapreduce原理

1、Map-Reduce的逻辑过程假设我们需要处理一批有关天气的数据,其格式如下:按照ASCII码存储,每行一条记录每一行字符从0开始计数,第15个到第18个字符为年第25个到第29个字符为温度,其中第25位是符号+/-0067011990999991950051507+0000+0043011990999991950051512+0022+004301

2016-09-14 11:53:37 726

转载 HDFS学习笔记(7)mapreduce

1、hadoop是一种分布式系统的平台,通过它可以很轻松的搭建一个高效、高质量的分布系统,而且它还有许多其它的相关子项目,也就是对它的功能的极大扩充,包括Zookeeper,Hive,Hbase等。2、MapReduce是hadoop的核心组件之一,hadoop要分布式包括两部分,一是分布式文件系统hdfs,一部是分布式计算框,就是mapreduce,缺一不可,也就是说,可以通过mapre

2016-09-13 16:27:22 582

原创 HDFS学习笔记(6)AVRO

一、引言1、 简介Avro是Hadoop中的一个子项目,也是Apache中一个独立的项目,Avro是一个基于二进制数据传输高性能的中间件。在Hadoop的其他项目中例如HBase(Ref)和Hive(Ref)的Client端与服务端的数据传输也采用了这个工具。Avro是一个数据序列化的系统。Avro 可以将数据结构或对象转化成便于存储或传输的格式。Avro设计之初就用来支持数据密集

2016-09-13 14:14:49 2692

转载 HDFS学习笔记(5)IO读写操作之数据压缩

Hadoop 作为一个较通用的海量数据处理平台,每次运算都会需要处理大量数据,我们会在 Hadoop 系统中对数据进行压缩处理来优化磁盘使用率,提高数据在磁盘和网络中的传输速度,从而提高系统处理数据的效率。在使用压缩方式方面,主要考虑压缩速度和压缩文件的可分割性。综合所述,使用压缩的优点如下:1. 节省数据占用的磁盘空间;2. 加快数据在磁盘和网络中的传输速度,从而提高系统的处理速度。

2016-09-13 13:51:37 3830 1

原创 HDFS学习笔记(4)IO读写操作之checksum

Datanode在把数据实际存储之前会验证数据的校验和(checksum的初始值?)。client通过pipeline把数据写入datanode. 最后一个datanode会负责检查校验和。当client从datanode读取数据时,也会检查校验和:把真实数据的校验和同datanode上的校验和进行比较。每个datanode都保存有一个checksum验证的持久化日志,日志中有当前datano

2016-09-13 11:59:50 1957

转载 HDFS学习笔记(3)HDFS数据流读写

一、数据流读取Configuration conf = newConfiguration();FileSystem fs = FileSystem.get(conf);FSDataInputStream in = fs.open(new Path(uri));步骤如下:1、客户端调用FileSystem的get()方法得到一个实例

2016-09-08 17:42:21 824

转载 HDFS学习笔记(1)认识HDFS

哦请问恶气我

2016-09-08 12:02:48 869

jquery打印控件

可以实现页面的局部打印。

2016-06-02

spring ibatis整合模板

亲手做的一个spring ibatis整合,刚刚接触ibatis,二话不说,ibatis环境先搭建好。

2012-12-13

中国移动账务管理系统

该系统是在网站上下载的,但是bug有很多,这一款是我修改后可以运行的,里面含有sql脚本文件,详细的java代码以及说明文档。

2012-03-19

新闻发布系统(Java)

该项目涵盖了项目需求文档、Oracle数据库的设计报告、数据库的sql脚本,当然也有详细的JAVA代码。

2012-02-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除