自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(17)
  • 收藏
  • 关注

转载 Hadoop作业提交多种方案具体流程详解

前言: 提交hadoop作业时我们遇到了许多的问题,在网上也查过许多的文章,有许多对hadoop提交作业原理进行分析的文章,却总看不到对具体操作过程讲解的文章,导致我们在eclipse提交的作业总是在eclipse虚拟的云环境中运行。慢慢摸索中,一个一个的作业提交方法被我们发现,呵呵,现在总结一下吧。方案: 1、用命令行方式提交2、在eclipse中提交作业

2017-02-28 22:22:49 928

转载 使用Maven管理Java项目

一、Maven入门1.下载mavenMaven是基于项目对象模型(Project Object Model),可以通过一小段描述信息来管理项目的构建、报告和文档的项目管理工具,提供了一个仓库的概念,统一管理项目所依赖的第三方jar包,最大可能避免了由于环境变量的不同在不同电脑之间无法运行的问题,Struts2、Hibernate都是采用maven部署的项目。它是Apache软件

2017-02-27 12:30:51 2334

原创 使用Maven构建Java项目

1.使用命令行工具构建一个Maven项目(1)创建一个工作目录,在这个工作目录下打开shell终端;(2)输入mvn archetype:generate其中mvn是maven最常用的命令,archetype是maven的一个插件,这个插件是一个项目模板工具,使用archetype插件可以自动生成各种项目的默认结构,:generate是一个maven的一个目标,一个mave

2017-02-26 23:55:26 389

原创 Maven概述和安装

Maven是一个项目管理工具,而项目构建是它使用最多的一个功能而已。功能:1.项目构建(Builds)打包、测试、代码检测、发布项目等重复性的工作。2.依赖管理(Dependencies)3.配置管理(SCMs)4.发布管理(Releases)5.文档编制(Documentation)6.报告(Reporting)特点:1.微内核通过插件

2017-02-26 14:24:08 301

转载 解决Sublime Text 2中文显示乱码问题

欲解决问题,关键在于让Sublime Text 2支持GB2312和GBK。步骤如下:    1.安装Sublime Package Control。       在Sublime Text 2上用Ctrl+~打开控制台并在里面输入以下代码,Sublime Text 2就会自动安装Package Control。[html] view plain copy

2017-02-24 15:16:10 453

原创 RDD/DataSet/DataFrame

1.RDD&DataSetDatasets are similar to RDDs, however, instead of using Java serialization or Kryo they use a specialized Encoder to serialize the objects for processing or transmitting over the netw

2017-02-17 10:22:04 404

转载 MySQL 如何存储长度较大的varchar与blob

最近,在工作中遇到了MySQL中如何存储长度较长的字段类型问题,于是花了一周多的时间抽空学习了一下,并且记录下来。MySQL大致的逻辑存储结构在这篇文章中有介绍,做为基本概念:InnoDB 逻辑存储结构注:文中所指的大数据指的是长度较长的数据字段,包括varchar/varbinay/text/blob。Compact行格式我们首先来看一下行格式为Compact是如

2017-02-15 09:43:53 5407

原创 scala 中的def/val/lazy val/的区别,call-by-value/call-by-name

本文简述在Scala中def、val和lazy val的区别关于val、lazy val和def的概念在此不多说,假设在 ~/Desktop 目录下有有一个 test.dat 文件,内容为:content 1直接来看在REPL中的效果:使用val如果 ~/Desktop/test.dat 文件不存在scala> val content1 = Source

2017-02-14 17:02:57 2846

转载 三个例子,让你看懂数据仓库多维数据模型的设计

一、概述  多维数据模型是最流行的数据仓库的数据模型,多维数据模型最典型的数据模式包括星型模式、雪花模式和事实星座模式,本文以实例方式展示三者的模式和区别。二、星型模式(star schema)  星型模式的核心是一个大的中心表(事实表),一组小的附属表(维表)。星型模式示例如下所示: 三、雪花模式(snowflake schema)  雪花

2017-02-10 10:48:13 15876

原创 如何理解spark中RDD和DataFrame的结构?

RDD中可以存储任何的单机类型的数据,但是,直接使用RDD在字段需求明显时,存在算子难以复用的缺点。例如,现在RDD存的数据是一个Person类型的数据,现在要求所有每个年龄段(10年一个年龄段)的人中最高的身高与最大的体重。使用RDD接口,因为RDD不了解其中存储的数据的具体结构,数据的结构对它而言是黑盒,于是这就需要用户自己去写一个很特化的聚合的函数来完成这样的功能。而

2017-02-08 14:14:08 3024

转载 外排序

方法介绍所谓外排序,顾名思义,即是在内存外面的排序,因为当要处理的数据量很大,而不能一次装入内存时,此时只能放在读写较慢的外存储器(通常是硬盘)上。外排序通常采用的是一种“排序-归并”的策略。在排序阶段,先读入能放在内存中的数据量,将其排序输出到一个临时文件,依此进行,将待排序数据组织为多个有序的临时文件;尔后在归并阶段将这些临时文件组合为一个大的有序文件,也即排序

2017-02-08 12:46:04 399

原创 Spark的Stage划分和task最佳位置算法

一、Stage的划分原理1.Spark Application中可以因为不同的Action触发众多的job,一个Application中可以有很多的job,每个job是由一个或者多个Stage构成的,后面的Stage依赖于前面的Stage,也就是说只有前面依赖的Stage计算完毕后,后面的Stage才会运行。2.Stage划分的依据就是宽依赖,何时产生宽依赖,例如reduceByKey,g

2017-02-07 16:42:24 2424

原创 Spark Executor原理

Master发指令给Worker启动Executor。Worker接收到Master发送来的指令通过ExecutorRunner启动另外一个进程来启动Executor。CoarseGrainedExecutorBackend通过发送RegisterExecutor向Driver注册,Driver在Executor注册成功后会返回RegisterExecutor信息给CoarseGr

2017-02-07 15:41:26 3552

原创 Spark Worker原理

Master发送LaunchDriver和LaunchExecutor到WorkerLaunchDriver-DriverRunner内部使用Thread来处理Driver的启动。1.创建Driver在本地文件系统的工作目录。2.封装好Driver的启动Command,并通过ProcessBuilder来启动Driver。3.Driver进程Launch

2017-02-07 13:39:46 648

原创 Spark资源调度分配原理

一、任务调度和资源调度的区别1.任务调度是通过DAGScheduler、TaskScheduler、SchedulerBackend等进行的作业调度2.资源调度是指应用程序如何获得资源3.任务调度是在资源调度的基础上进行的,没有资源就没有任务二、资源调度原理1.因为Master负责资源管理和调度,所以资源调度的方法shedule位于Master.scala这个类中,当注

2017-02-07 13:14:59 2354

原创 Spark的Task执行原理流程

1.当Driver中的CoarseGrainedSchedulerBackend给CoarseGrainedExecutorBackend发送LaunchTask之后,CoarseGrainedExecutorBackend在收到LaunchTask消息后,首先会反序列化TaskDescription2.Executor会通过launchTask来执行Task3.TaskR

2017-02-07 11:13:02 948

转载 word2vec入门

word2vec要解决问题: 在神经网络中学习将word映射成连续(高维)向量,这样通过训练,就可以把对文本内容的处理简化为K维向量空间中向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。一般来说, word2vec输出的词向量可以被用来做很多 NLP 相关的工作,比如聚类、找同义词、词性分析等等。另外还有其向量的加法组合算法。官网上的例子是 :vector('

2017-02-04 13:35:00 725

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除