自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ThisIsNobody的博客

토네이도의 중심을 차지하라.

  • 博客(199)
  • 收藏
  • 关注

原创 Big Data常识

1. KB、MB、GB、TB、PB、EB、ZB、YB、DB、NB 

2018-06-24 01:02:46 753

原创 Java try-with-resources

https://docs.oracle.com/javase/tutorial/essential/exceptions/tryResourceClose.html不需要finally中关闭,直接在try中写resource,resource可以是实现了java.lang.AutoClosable和java.io.Closable的所有类 static String readFirs...

2018-07-30 12:48:57 311

原创 Java hash code

1 JVM分配给对象的唯一ID2 如果两个对象equals,则返回相同的hashcode3 32bit有符号int

2018-07-30 09:07:28 598

原创 Computer Networking 运输层(一)

Part1运输层概况1 网络层为主机之间提供了逻辑通信2 传输层为运行在不同主机上的进程之间提供了逻辑通信3 IP网际协议为主机之间提供了逻辑通信,服务模型是尽力而为交付服务,尽最大的努力在通信主机之间交付报文段,但不保证报文段的交付,不保证按序交付,不保证数据完整性4 UDP的最小服务是进程到进程的数据交付和差错检查5 TCP 比UDP多可靠数据传输 拥塞控制  Pa...

2018-07-29 18:41:28 437

原创 Computer Networking 应用层(三)

Part1文件传输协议FTP1 FTP使用并行TCP连接传输文件:控制连接和数据连接2 控制连接:用户标识 口令 修改远程目录 put get3 数据连接:实际发送文件4 FTP是带外发送控制信息,HTTP是带内发送控制信息5 控制连接连续,数据连接非连续6 FTP在整个会话期间保留用户的状态,限制了会话数量;HTTP无状态,不必对用户状态追踪 Part2电子邮件...

2018-07-29 17:48:51 318

原创 Computer Networking 应用层(二)

Part1应用层协议1 应用层协议只是网络应用的一部分2 常见的5种网络应用:Web 文件传输 电子邮件 目录服务 P2P Part2HTTPHTTP基础1 Web的应用层协议是HTTP,HTTP是Web的核心,由客户程序和服务器程序实现,交换HTTP报文实现会话2 HTTP定义了报文结构;定义客户与服务器之间的报文交换方式3 HTTP使用TCP作为传输协议,无需担...

2018-07-29 11:41:54 244

原创 Computer Networking 应用层(一)

Part1 网络应用程序体系结构1 客户-服务器体系结构C/S客户之间不通信,依赖于数据中心的服务器,向专用服务器发送请求2 P2P体系结构peer to peer在间断连接的主机对之间直接通信,主机对称为对等方优点:自扩展性缺点:安全性 Part2进程通信1 在一个会话中,发起通信的进程是客户,等待联系的进程是服务器,通信进程互相发送报文2 进程通过套接字...

2018-07-29 11:02:25 235

原创 Computer Networking 因特网协议栈基础

应传网链物Part1应用层网络应用程序应用层协议:HTTP SMTP FTP DNS信息:报文Part2传输层传送应用层报文传输层协议:TCP UDP信息:报文段Part3网络层协议:IP 路由选择协议信息:数据报Part4链路层协议:以太网 WiFi DOCSIS协议信息:帧Part5物理层信息:比特bit  ...

2018-07-29 10:03:48 221

原创 Computer Networking 时延 丢包 吞吐量

Part1结点时延结点时延 = 结点处理时延 + 排队时延 + 传输时延 + 传播时延结点处理时延:决定该分组导向何处排队时延:等待传输传输时延:路由器将分组推出到链路的时间传播时延:在链路上传播的时间 Part2排队时延和丢包分组到达结点时,如果遇到一个已满的队列,没有地方存储这个分组,路由器将丢弃该分组,该分组会丢失 Part3端到端时延除了结点内的...

2018-07-29 09:45:25 400

原创 Java native method

https://stackoverflow.com/questions/18824798/what-is-difference-between-java-method-and-native-methodhttps://stackoverflow.com/questions/6557358/native-methods-in-javahttps://stackoverflow.com/que...

2018-07-29 00:19:41 231

原创 Kafka Quickstart

official quickstart1 控制台生产者,消费者使用kafka内置zookeeper生产者控制台消费者控制台进程jps2 使用kafka connect导入导出数据-file streamConnectStandalone进程每10s提交偏移量...

2018-07-23 16:38:02 206

原创 Spark2.3.1 Structured Streaming Programming Model

Part1 基础概念1 input data stream 当作 unbounded input table2 new data = new rows3 查询input table会产生result table4 每过一个trigger interval,添加新的row到Input table,并更新result table5 每次result table更新,写将更新的行写到...

2018-07-20 12:26:31 230

原创 Spark2.3.1 Structured Streaming Programming Guide

1 structured streaming是可扩展,容错性强的流处理引擎,建立在spark sql engine上2 spark sql engine在数据流不断到达时,会持续地增长式地运行数据流,并更新最终结果,数据流也像静态数据计算一样通过optimizer sql engine优化3 使用dataset, dataframe api做streaming aggregations, ...

2018-07-20 10:18:29 369

原创 Scala编程 yield是如何工作的?

1 在scala中for表达式被翻译为map flatmap filter withfilter foreach 多重操作的组合语法糖https://docs.scala-lang.org/tutorials/FAQ/yield.html2 REPL read-evaL-print loop scala shell interface3 Call-By-Name按名参数使用=>,...

2018-07-20 09:25:10 611

原创 Spark2.3.1 API SparkSession

类org.apache.spark.sql.SparkSession1 dataset和dataframe API的入口2 在REPL和databrick的notebooks环境中已经提前建立好了 对象org.apache.spark.sql.SparkSession1 为创建sparksession而创建一个builder 2 设置/获取/清除session3...

2018-07-18 21:40:34 769

原创 Spark MLlib(四) feature extractors

extraction: features from raw datatransformation: scaling, converting or modifying featuresselection: selecting a subset from featureslocality sensitive hashing: combining feature transformation with ...

2018-07-16 16:29:19 480

原创 Spark MLlib(三) pipelines

main conceptsdataframe:存放比如text,feature vectors,true labels,和predictionstransformer: 转换为新的df, 如ML model是将特征dataframe转化为prediction dataframe的算法estimator: be fit on dataframe,生成transformer, 如learning al...

2018-07-16 15:57:20 463

原创 Statistics logistic regression

logistic regression1 是一种Classification Algorithm2 设离散值y属于{0, 1},0是negative class, 1是positive class3 logistic function:  

2018-07-16 15:49:56 194

原创 Spark MLlib(二) basic statistics

correlationpearson correlation coefficient(PCC)1 度量两个变量的线性关系强度2 pearson's r一直处于-1和1之间3 (x, y):xy的偏方差除以x标准差和y标准差的乘积spearman rank correlation coefficient(RCC)1 度量两个有关系的但不是线性关系的变量之间的关系3 给变量排序,使用顺序数字1,2,3...

2018-07-16 09:05:37 197

原创 Spark MLlib(一) Guide

是什么?是Spark machine learning的库文件为什么?使实践ML简单且可扩展什么功能?1 ML算法:分类,回归,聚类,协同过滤2 特征:特征提取,转化,降维,选择3 管线:创建,评估,调谐ML管线4 持久化:保存和加载算法,models和管线5 公用工具:线性代数,统计学,data handling版本更新2.0之后主API是DataFrame_based API,RDD_base...

2018-07-15 20:26:27 207

原创 数据结构 线索二叉树

指向前驱和后继的指针称为线索,相应的二叉树就是线索二叉树这里的前驱和后继是指在经过某一种遍历(先序遍历,中序遍历,后序遍历)后得到的顺序如先序遍历后得到ASBCDJF,则S的前驱是A,S的后继是B...

2018-07-15 18:23:25 195

原创 数据结构 二叉树

满二叉树:最后一层子节点满完全二叉树:最后一层只可以右边少子节点,满二叉树也是完全二叉树二叉树性质性质1任何二叉树中,度为2的节点数比度为0的节点数小1 即n2 + 1 = n0因为总数 n = n0 + n1 + n2,且分支数b = n - 1 = n1 + 2n2,则n1 + 2n2 + 1 = n0 + n1 + n2性质2具有n个节点的完全二叉树的深度是logn + 1(不大于logn的...

2018-07-15 18:09:59 124

原创 数据结构 Huffman Coding

Huffman Coding树的路径长度是根节点到所有子节点的路径长度的和树的带权路径长度是根节点到所有叶子节点的带权路径长度的和huffman tree是带权路径长度最小的二叉树算法:按权排序,求权和,二叉树左子树小于右子树,再排序,求权和...huffman coding在huffman tree基础上,左分支编码为0,右分支编码为1,路径编码即为huffman codingA27 B8 C1...

2018-07-15 15:36:02 204

原创 Scala编程 Extractor

1 抽取器是对象,需要定义unapply方法,可选地定义apply方法,apply方法称为注入方法,unapply方法称为抽取方法2 目的是为了匹配并分解值3 对偶关系调用Email.unapply(Email.applu(user, domain))返回 Some(user, domain)...

2018-07-14 22:11:13 185

原创 Scala编程 注解

注解:添加到程序源代码中的结构化信息,易于机器处理把需要传递给工具的指令标示在源代码中提供对工具的支持meta-programming1 文档生成器可以得到指示,把某些方法在文档中标记为废除2 排版打印器可以得到指示,跳过已经被仔细手工格式化的程序3 未关闭文件检查器可以得到指示,忽略被人工验证关闭的特定文件4 副作用检查器可以得到指示,验证指定的方法是否有副作用注解语法1 @ val var d...

2018-07-14 20:02:40 187

原创 Scala编程 有状态的对象

纯函数式对象与有状态对象之间的本质差别1 对纯函数式对象调用方法或获取其字段的值,将得到同样的结果2 对于有状态的对象,方法调用或字段访问的结果取决于之前已经执行过的操作可能是有状态对象1 类中有var变量或者方法中存在有状态对象 重新赋值的字段1 非私有的var变量都有getter和setter,变量的修饰符隐藏是private[this]如var hour = 10 getter方法为hour...

2018-07-14 16:04:11 172

原创 Scala 使用列表

Part1特征1 不可变,不可赋值更改列表元素2 递归结构,如链表3 同质的,所有元素类型相同4 协变,S是T的子类型,那么List[S]是List[T]的子类型5 空列表的类型是List[Nothing],Nothing是所有Scala类型的子类Part2构造1 基础块 Nil和:: 空列表+中缀操作符val nums = 1 :: (2 :: (3 :: (4 :: Nil)))Part3基本...

2018-07-14 15:33:46 393

原创 Spark Window操作

Apache Flink的windowhttps://flink.apache.org/news/2015/12/04/Introducing-windows.html微软Azure的windowhttps://msdn.microsoft.com/zh-cn/azure/stream-analytics/reference/windowing-azure-stream-analyticsJL解释...

2018-07-13 07:50:07 756

原创 Spark2.3.1 API Dataset

org.apache.spark.sql.Dataset1 强类型集合2 对象可以做函数操作或者关系型操作3 DataFrame是Row类型的Dataset,即Dataset[Row]4 转化操作生成新的Dataset,行动操作执行计算并生成结果,是lazy的,只有行动操作才会触发计算5 Spark Catalyst Optimizer优化计算,将logical plan以并行,分布式的方式优化为...

2018-07-12 22:59:59 370

原创 Spark2.3.1 API RelationalGroupedDataset

org.apache.spark.sql.RelationalGroupedDataset1 最经常是由DataFrame的groupBy创建2 也可以由DataFrame的cube,rollup创建3 还可以由自身的pivot创建功能1 主要用来做agg函数计算2 还有一些常用的统计方法,如sum, count, min等...

2018-07-12 22:00:15 2369

原创 Spark2.3.1 API DataStreamReader

org.apache.spark.sql.streaming.DataStreamReader

2018-07-12 21:22:41 600

原创 Scala编程 PartialFunction

1 PartialFunction和偏应用函数Partially Applied Function是不同的概念2 所有的Map和Seq类型都扩展了PartialFunction3 API4 大佬的解释

2018-07-12 14:51:02 241

原创 Scala编程 Lambda Expressions

val twice1: Double => Double = x => x * 2val twice2: Double => Double = _ * 2val twice3 = (x: Double) => x * 2val twice4 = (_: Double) * 2val lt1: (Double, Double) => Boolean = (x, y) =...

2018-07-12 13:51:54 1121 1

原创 Scala编程 样本类和模式匹配

样本类case classScala编译器自动为样本类添加一些句法设定1 添加与类名一致的工厂方法    case class Var(s: String)    创建样本类的实例只需要 val v = Var("x"),不需要写val v = new Var("x")2 样本类的类参数都可以当作字段维护3 编译器为样本类添加了toString hashCode,equals方法模式匹配选择器 m...

2018-07-11 21:20:40 171

原创 Scala编程 包和引用

1 Scala采用了Java平台完整的包机制2 按需引用使用_,与Java的*相同的效果3 Scala的包是嵌套的4 可以把对象当作模块引用def showFruits(fruit: Fruit){ import fruit._ //引入对象参数的所有属性 println(name + ": " + color) //使用对象属性}5 import引用可以出现在任何地方6 可以使用简单名...

2018-07-11 19:47:44 515

原创 Scala编程 scala的层级

类型层级原始类型的实现1 使用和Java的原始类型一样的包装类,但是在Java中,比较非原始类型如果使用==,这个==是会比较二者引用的对象是否是同一个,在Scala中==即使是引用类对象比较,也只比较值,不是比较是否是同一个对象引用,如果要实现引用的比较,使用AnyRef定义的eq/ne底层类型Nullscala.Null和scala.Nothing是处理边界情况的特殊类型NUll类是null引...

2018-07-11 16:56:15 234

原创 Scala编程 组合和继承

抽象类1 类如果有未实现的方法,则类就是抽象类,不能实例化,类名加abstract,方法名不加abstract无参数方法1 空括号方法 def hello(): Int =2 无参数方法 def hello: Int =3 无副作用使用无参数方法,有副作用使用空括号方法(因为使用括号可以显式告诉是个方法,内部有副作用)4 属性是字段还是方法不应该有影响,支持统一访问原则组合1 组合是指一个类持有另...

2018-07-11 16:42:24 309

原创 Scala编程 函数和闭包

函数字面量1 函数字面量写成匿名函数,并当作值传递2 函数字面量被编译到类中,在运行时实例化,为函数值占位符语法1 如果参数在函数字面量中只出现一次,则可以把_当作参数的占位符2 每次函数被调用,_处用函数的参数来填入3 有时不指定类型会出错部分应用函数/偏应用函数1 不需要提供函数的所有参数2 使用_代替整个参数列表 someNumbers.foreach(println _) //等同于下方...

2018-07-11 11:35:32 174

原创 Scala编程 控制结构

控制结构由if, try, for, match,while和函数调用if1 if控制结构可以产生值,三元操作符的行为与if一致,也被称为if, while和do...while控制结构不能产生值,结果类型是Unit,尽量减少使用while2 因为if可以返回值,代码可以如下优化var filename = "hellokitty"if(!args.isEmpty) filename = "...

2018-07-11 10:45:23 173

原创 Scala编程 Functional Objects

1 如果类没有主体,则不需要花括号class Rational(n: Int, d: Int)n和d是类参数,Scala编译器会创建带同样参数的主构造器primary constructor2 如果代码不在方法中,且不是字段,则Scala编译器会把这部分编译到主构造器中//因为把println放进了主构造器,所以每次创建新的Rational实例都会调用printlnclass Rational(...

2018-07-11 01:04:06 182

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除