自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 spark-yarn 模式下的一些参数

这些参数都可以在spark-submit脚本中通过 --conf进行配置。

2017-10-28 09:43:15 253

原创 Spark内核深度剖析之宽依赖和窄依赖

在之前提到了DAGScheduler会将job划分为多个stage,而划分依据就是RDD之间的依赖关系。RDD之间的依赖关系分类窄依赖(narrow dependency)和宽依赖(wide dependency, 也称 shuffle dependency).窄依赖:窄依赖是指一个RDD对它的父RDD只有简单的一对一的依赖关系,即RDD的每个partition只依赖于父RDD中的一个partiti

2017-09-22 16:47:21 728

原创 Spark内核深度剖析之内核架构

spark内核

2017-09-22 15:29:48 517

原创 Spark的重要组件和基本工作流程

Spark的几大组件:Driver,Master,Worker,Executor,Task基本工作流程为:Driver向Master节点提交我们编写的Spark程序进行应用的注册,并且对集群进行监控。Master在接收到程序注册后,会发送请求给Worker进行资源的调度和分配,即要求worker启动相应的Executor,资源分配即Executor的分配。

2017-09-03 18:20:10 1146

原创 Could not locate executable null\bin\winutils.exe in the Hadoop binaries

在本地调试hadoop和spark程序时一直报一个错误Could not locate executable null\bin\winutils.exe in the Hadoop binaries:,看起来像是HADOOP_HOME没有配置,但我明明配置了啊,检查了好几遍也没发现问题,跟进取可以看到在hadoop.util.Shell中有一个checkHadoopHome的方法,private

2017-08-31 10:46:32 992 2

原创 一个简单的爬虫程序(爬取百度百科关于python的一千个页面)

最近学了点python基础,本着练手的目的跟着网上一个教程写了一个简单的爬虫程序。python入门还是很轻松的,整个过程也很顺利,几乎算是一次就成功了。1.爬虫架构及工作流程一个爬虫程序可以分为四个基本模块,总调度端,URL管理器,网页下载器以及网页解析器。 总调度段负责程序的启动,停止以及监视程序的运行进度。 URL管理器负责管理已经爬取过的URL和未爬取过的URL,它将未爬取过的网页URL发

2017-07-28 08:41:34 940

原创 数据仓库学习笔记01

最近在跟着一个辅导机构视频学习大数据,在Hive实战篇前,老师补充了关于数据仓库的知识。本科时学过一些数据仓库的理论知识,但始终是似懂非懂,现在更是忘的一干二净了,所以现在基本是从零开始学习。在这里记录一下学习过程。1.数据仓库概述数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。它为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性

2017-07-15 23:05:10 382

原创 使用SQL将人员按性别分类并查询每种性别年纪最大的两个人

在做统计时经常遇到这样的需求,将数据按某种属性分类,按另一属性排序,查询排在前几位的数据信息。

2017-07-14 17:47:18 7519

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除