自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

转载 大话Spark(9)-源码之TaskScheduler

上篇文章讲到DAGScheduler会把job划分为多个Stage,每个Stage中都会创建一批Task,然后把Task封装为TaskSet提交到TaskScheduler。这里我们来一起看下TaskScheduler是如何把Task分配到应用程序的Executor上去执行。重点是这里的task分配算法。如下图是DagScheduler中把TaskSet提交到TaskSchedu...

2019-07-14 11:29:00 203

转载 大话Spark(8)-源码之DAGScheduler

DAGScheduler的主要作用有2个:一、把job划分成多个Stage(Stage内部并行运行,整个作业按照Stage的顺序依次执行)二、提交任务以下分别介绍下DAGScheduler是如何做这2件事情的,然后再跟源码看下DAGScheduler的实现。一、如何把Job划分成多个Stage1) 回顾下宽依赖和窄依赖窄依赖:父RDD的每个分区只被子RDD...

2019-06-26 09:45:00 159

转载 上百本电子书(Java/Hadoop/Spark/Linux/机器学习/)免费分享 百度云持续更新

分享一下自己整理的超多电子书,其中包括:Java,Hadoop,Spark,Linux,Hbase,Hive,机器学习,区块链目录如下:1 Java 基础2 Java 虚拟机3 Java 并发4 Docker 体系5 Hadoop6 Hbase7 Hive8 区块链9 Spark10 MySQL11 设计模式12 时间管理13...

2019-06-21 09:49:00 374

转载 500GJava/Hadoop/Spark/机器学习...视频教程免费分享 百度云持续更新

参加工作这么长时间了,工作中遇到了不少技能都是看视频教程学习的,相比较看书而言看视频确实比较容易理解。分享一下自己看过的和收集的视频教程。资源包括:大数据方面的Hadoop(云帆,小象学院,八斗学院)Spark从入门到精通278讲机器学习(这个很全)java方面:Dubbo,Maven,马士兵老师的设计模式IOS教程等等等~部分资源截图预览...

2019-06-21 09:47:00 662

转载 大话Spark(7)-源码之Master主备切换

Master作为Spark Standalone模式中的核心,如果Master出现异常,则整个集群的运行情况和资源都无法进行管理,整个集群将处于无法工作的状态。Spark在设计的时候考虑到了这种情况,Master可以起一个或者多个Standby Master,当Master出现异常的时候,Standy Master 将根据一定规则确定一个接管Master。在Standalone模式中S...

2019-06-18 19:14:00 108

转载 大话Spark(6)-源码之SparkContext原理剖析

SparkContext是整个spark程序通往集群的唯一通道,他是程序的起点,也是程序的终点。我们的每一个spark个程序都需要先创建SparkContext,接着调用SparkContext的方法, 比如说 sc.textFile(filepath),程序最后也会调用sc.stop()来退出。让我们来一起看下SparkContext里面到底是如何实现的吧!1 SparkCon...

2019-06-11 23:04:00 136

转载 大话Spark(5)-三图详述Spark Standalone/Client/Cluster运行模式

之前在 大话Spark(2)里讲过Spark Yarn-Client的运行模式,有同学反馈与Cluster模式没有对比, 这里我重新整理了三张图分别看下Standalone,Yarn-Client 和 Yarn-Cluster的运行流程。1、独立(Standalone)运行模式独立运行模式是Spark自身实现的资源调度框架,由客户端、Master节点和多个Worker节点组...

2019-06-06 07:49:00 158

转载 大话Spark(4)-一文理解MapReduce Shuffle和Spark Shuffle

Shuffle本意是混洗, 洗牌的意思, 在MapReduce过程中需要各节点上同一类数据汇集到某一节点进行计算,把这些分布在不同节点的数据按照一定的规则聚集到一起的过程成为Shuffle.在Hadoop的MapReduce框架中, Shuffle是连接Map和Reduce之间的桥梁, Map的数据要用到Reduce中必须经过Shuffle这个环节. 由于Shuffle涉及到磁盘的...

2019-05-28 12:48:00 136

转载 大话Spark(3)-一图深入理解WordCount程序在Spark中的执行过程

本文以WordCount为例, 画图说明spark程序的执行过程WordCount就是统计一段数据中每个单词出现的次数,例如hello spark hello you 这段文本中hello出现2次, spark出现1次, you出现1次.先上完整代码:object WordCount { def main(args: Array[String]) { ...

2019-05-24 16:57:00 173

转载 大话Spark(2)-Spark on Yarn运行模式

Spark On Yarn 有两种运行模式:Yarn - ClusterYarn - Client他们的主要区别是:Cluster: Spark的Driver在App Master主进程内运行, 该进程由集群上的YARN管理, 客户端可以在启动App Master后退出.Client: Driver在提交作业的Client中运行, App Master仅用于从...

2019-05-21 23:37:00 182

转载 大话Spark(1)-Spark概述与核心概念

说到Spark就不得不提MapReduce/Hadoop, 当前越来越多的公司已经把大数据计算引擎从MapReduce升级到了Spark. 至于原因当然是MapReduce的一些局限性了, 我们一起先来看下Mapreduce的局限性和Spark如何做的改进.Spark概述MapReduce局限性1 仅支持Map和Reduce两种操作2 处理效率极低 Map中...

2019-05-19 10:21:00 128

转载 详细讲解MapReduce二次排序过程

我在15年处理大数据的时候还都是使用MapReduce, 随着时间的推移, 计算工具的发展, 内存越来越便宜, 计算方式也有了极大的改变. 到现在再做大数据开发的好多同学都是直接使用spark, hive等工具, 很少有再写MapReduce的了. 这里整理一下MapReduce中经常用到的二次排序的方法, 全当复习.简介二次排序(secondary sort)问题是指在Re...

2019-05-16 12:17:00 402

转载 mysql索引设计的注意事项(大量示例,收藏再看)

mysql索引设计的注意事项(大量示例,收藏再看)目录一、索引的重要性二、执行计划上的重要关注点(1).全表扫描,检索行数(2).key,using index(覆盖索引)(3).通过key_len确定究竟使用了复合索引的几个索引字段(4) order by和Using filesort三、索引设计的注意事项(1). 关于INNODB表PRIMAR...

2019-05-13 09:21:00 320

转载 重构,开启系统优化的钥匙

代码重构会不会太low?说到重构,其实可能每个人心中的理解都不太一样。单纯意义上来说,重构是对代码的再调整,在不改变业务逻辑的前提下,降低代码的长度、圈复杂度、重复度,提高其可读性、可维护性和可扩展性。简单来说,就是把代码整的规整干净,逻辑清晰,层次分明。然而,这往往不是产品线希望得到的答案,不同的产品线在和我们接触的初期,都会很明确的说,我的系统需要重构。但当我们介绍完什么是重构...

2019-03-26 19:54:00 107

转载 接地气,到底什么才是大数据开发工程师?

最近发现有些同学并不太了解大数据开发工程师这个职位,自己转大数据开发也已经三年了,所以想简单介绍一下什么是大数据开发工程师,当前互联网公司的数据开发到底是什么样子的?和一般的java或者php工程师在工作上有什么区别?声明:本文仅代表个人观点,有不同意见欢迎提出。另外本文对大数据开发工程师没什么参考价值~仅是我各人对这个职位做一个介绍。1 先说我认为什么不是大数据开发 仅...

2018-09-26 09:29:00 126

转载 JDK10源码阅读--String

jdk源码里对String的介绍:String 是不可变的,一旦被创建其值不能被改变. String buffers 支持可变String. 因为String是不可变的, 所以它们可以被共享.例如:String str = "abc";等价于char data[] = {'a', 'b', 'c'};String str = new Stri...

2018-09-21 09:16:00 269

转载 [java大数据面试] 2018年4月百度面试经过+三面算法题:给定一个数组,求和为定值的所有组合....

给定一个数组,求和为定值的所有组合, 这道算法题在leetcode应该算是中等偏下难度, 对三到五年工作经验主要做业务开发的同学来说, 一般较难的也就是这种程度了.简述经过:不算hr面,总计四面,第一天前三面, 然后过了一个多星期第四面(领导一般都比较忙~)平均每一面都是一小时,面完前三面已经很辛苦了. 我之前去美团面试从一面到hr面,总计四面 面了一下午将近四个小时...还...

2018-09-17 09:41:00 218

转载 python scrapy爬取知乎问题和收藏夹下所有答案的内容和图片

上文介绍了爬取知乎问题信息的整个过程,这里介绍下爬取问题下所有答案的内容和图片,大致过程相同,部分核心代码不同.爬取一个问题的所有内容流程大致如下:一个问题url请求url,获取问题下的答案个数(我不需要,因为之前获取问题信息的时候保存了问题的回答个数)通过答案的接口去获取答案(如果一次获取5个答案,总计100个答案,需要计算的出访问20次答案接口)[答案的接口地址如下图所...

2018-09-13 10:10:00 368

转载 使用python scrapy爬取知乎提问信息

前文介绍了python的scrapy爬虫框架和登录知乎的方法.这里介绍如何爬取知乎的问题信息,并保存到mysql数据库中.首先,看一下我要爬取哪些内容:如下图所示,我要爬取一个问题的6个信息:问题的id(question_id)标题(title)问题描述(intro)回答个数(answer_num)关注人数(attention_uv)浏览次数(read_pv)...

2018-09-13 10:09:00 316

转载 [java基础]一文理解java多线程必备的sychronized关键字,从此不再混淆!

java并发编程中最长用到的关键字就是synchronized了,这里讲解一下这个关键字的用法和容易混淆的地方.synchronized关键字涉及到锁的概念, 在java中,synchronized锁大家又通俗的称为:方法锁,对象锁 和 类锁 三种.先上结论!1 无论是修饰方法还是修饰代码块都是 对象锁,当一个线程访问一个带synchronized方法时,由于对象锁的存在,所有...

2018-09-12 09:43:00 68

转载 python scrapy 登录知乎过程

前面了解了scrapy框架的大概各个组件的作用,现在要爬取知乎数据,那么第一步就是要登录!看下知乎的登录页面发现登录主要是两大接口一: 登录页面地址,获取登录需要的验证码,如下图打开知乎登录页面,需要输入用户名和密码, 还有一个验证码,看chrome 调试工具发现验证码是这个地址返回的:https://www.zhihu.com/api/v3/oauth/captc...

2018-09-10 15:30:00 205

转载 python scrapy爬虫框架概念介绍(个人理解总结为一张图)

python的scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架python和scrapy的安装就不介绍了,资料很多这里我个人总结一下,能更加快理解scrapy和快速上手一个简单的爬虫程序首先开始一个scrapy项目用命令: scrapy startproject 项目名创建出来的文件如下图:红框是我的命令,蓝框是scrapy自动创建的文件...

2018-09-05 10:17:00 196

转载 【干货】一文理解Druid原理架构(时序数据库,不是ali的数据库连接池)

Druid.io(以下简称Druid)是2013年底开源出来的,主要解决的是对实时数据以及较近时间的历史数据的多维查询提供高并发(多用户),低延时,高可靠性的问题。Druid简介:Druid是一个为在大数据集之上做实时统计分析而设计的开源数据存储。这个系统集合了一个面向列存储的层,一个分布式、shared-nothing的架构,和一个高级的索引结构,来达成在秒级以内对十...

2018-09-04 10:21:00 114

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除