- 博客(52)
- 资源 (2)
- 收藏
- 关注
原创 spark中distinct是如何实现的?
A1 总述:去重A2 思路:map -> resuceByKey -> mapA3 源码:3.1 有参: /** * Return a new RDD containing the distinct elements in this RDD. */ def distinct(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T] = withScope { map(x => (x, nu
2021-03-09 21:40:17
1304
原创 为什么textFile用string去接收
因为spark中textFile读文件的函数沿用的MR,MR读文件是行读取器,一行一行读出来,只能string去接收。源码:/** * Read a text file from HDFS, a local file system (available on all nodes), or any * Hadoop-supported file system URI, and return it as an RDD of Strings. * @param path path to th
2021-03-08 19:57:21
236
原创 spark启动端口
位置:spark的conf目录下sbin的start-master.sh中vim start-master.sh可编辑默认:master的端口是 7077WEBUI的端口是 8080
2021-03-08 19:54:38
517
原创 面向对象之总述
A1 何谓面向对象面向对象:OOP(Object Oriented Programming)面向对象编程:OOPL(Object Oriented Programming Language)其中有两个重要概念:类(class)、对象(object)第一个真正意义上的面向对象编程语言:Smalltalk1.1 面向对象编程面向对象编程时一种编程范式或编程风格。它以类或对象作为组织代码的基本单元,并将封装、抽象、继承、多态四个特性,作为代码设计和实现的基石。1.2 面向对象编程语言面向对象语言
2021-03-08 19:46:48
233
原创 设计模式之总述
A1 为什么学设计模式潜移默化提升对技术的理解写出高效、可扩展、可读、可维护的高质量代码应对面试提高复杂代码设计和开发能力读源码和学框架事半功倍A2 何为高质量代码最常见的标准:可维护性(maintainabilty)在不破坏原有代码设计、不引入新的Bug的情况下,能够快速地修改或者添加代码。具体:代码分层清晰、模块化好、高内聚低耦合、遵从基于接口而非实现编程的设计原则等。可读性(readability)符合编码规范、命名达意、注释详尽、函数长短合适、模块划分清晰、
2021-03-08 19:46:05
223
原创 spark处理速度为什么比MapReduce快?
速度快这个词对于任何架构需要针对应用场景来描述。官网的这张图下边有一行字:Logistic regression in Hadoop and Spark迭代场景下spark的处理速度大致是hadoop的100倍。????️原因那么快的原因主要有两点:基于内存,spark中间结果不落盘(hadoop频繁落盘)有DAG(有向无环图):来切分任务的执行先后顺序。????️对比:MR(mapreduce):Spark:可以看出MR中间频繁读写落盘,而spark则中间结果一直在内存中。
2021-03-08 15:59:27
920
原创 Flink浅谈入门+vsSparkStreaming+流语义性etc.
Flinkhttps://flink.apache.org/zh/1.???? what1.1 奥义1.1.1 起源10年,德国柏林几个大学对大数据进行处理,流式计算的研究项目。14年,源代码捐给了Apache基金会,成为孵化项目15年1月,短短几个月,成为Apache顶级项目,应用广泛17年,阿里巴巴接手,投入大量人力物力1.1.2 了解Flink德语:快速灵巧logo小故事:源于德国柏林,地区多红棕色松鼠,特点是快速灵巧。红棕色又与Apache基金会logo一致,
2021-03-08 15:14:53
438
原创 Ubuntu安装及配网
Linux之Ubuntu目录Linux之UbuntuA1 安装1.1 过程A2 进入后常规2.1 命令思想2.2 进入root用户2.3 进入文本编辑模式2.4 配网(指定静态ip)A3 Xshell连接UbuntuA4 问题4.1vi编辑器异常4.2没有ifconfig命令本文章适合安装过centos及有一定Linux命令基础,有问题欢迎评论区询问和私聊。A1 安装前提:安装了Vmware虚拟机然后新建虚拟机,并选择镜像,除了镜像与c..
2021-03-08 14:50:08
829
原创 基于服务器的个人博客网站搭建
网站搭建A1 基础1.购买域名(备案)[也可以不买域名,直接用公网ip]2.购买服务器A2 域名2.1 域名解析2.1.1 进入域名解析2.2 添加记录 记录类型 后边有解释,与后面的记录值对应 用服务器就是A,记录值对应服务器公网ip 主机记录 记录值 根据记录类型填写 其他一般默认2.2 域名备案阿里云中有直接备案(其他类似 全过程一般一个月(最后公安备案时间长,前几步就两三天) A3ECS云服务器搭建博客.
2021-03-08 11:57:15
761
6
转载 isInstanceOf & asInstanceOf
如果实例化了子类的对象,但是将其赋予了父类类型的变量,在后续的过程中,又需要将父类类型的变量转换为子类类型的变量,应该如何做?Ø 首先,需要使用isInstanceOf 判断对象是否为指定类的对象,如果是的话,则可以使用 asInstanceOf 将对象转换为指定类型;Ø 注意:p.isInstanceOf[XX] 判断 p 是否为 XX 对象的实例;p.asInstanceOf[XX] 把 p 转换成 XX 对象的实例Ø 注意:如果没有用isInstanceOf 先判断对象是否为指定类的实例,就直
2021-03-06 11:45:16
811
原创 闭包概念
一句话解释就是:存在自由变量的函数就是闭包。一个持有外部环境变量的函数就是闭包。在这个例子里函数b因为捕获了外部作用域(环境)中的变量a,因此形成了闭包。 而由于变量a并不属于函数b,所以在概念里被称之为「自由变量」。关键点:函数自由变量环境例子:let a = 1 let b = function(){ console.log(a) } 在这个例子里函数b因为捕获了外部作用域(环境)中的变量a,因此形成了闭包。 而由于变量a并不属于函数b,所以在概念里被
2021-03-06 11:42:09
256
原创 option相关
javaoptional是Java 8 引入的特性。解决:空指针异常(NullPointerException)本质:这是一个包含有可选值的包装类,这意味着 Optional 类既可以含有对象也可以为空。https://www.oschina.net/translate/understanding-accepting-and-leveraging-optional-in?lang=chs&page=2#Scala比较特殊的None,是Option的两个子类之一,另一个是Some,用于安全
2021-03-06 11:40:19
222
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅