2019年03月_RayfunC

翻译认识大牛深度学习“三剑客”

美国东部时间 2019 年 3 月 27 日，美国计算机协会（ACM）宣布，深度学习的三位推动者尤舒亚·本吉奥（Yoshua Bengio）、杰弗里·辛顿（Geoffrey Hinton），和雅恩·乐昆（Yann LeCun）因其在神经网络方面的成就赢得了 2018 年的图灵奖（A.M. Turing Award）图灵奖诞生于 1966 年，这一奖项名称取自计算机先驱艾伦・图灵（AlanM...

2019-03-29 21:04:24 1931

原创理解时间复杂度

本篇概念皆是关于时间复杂度首先需要了解一个概念时间频度一个算法中的语句执行次数称为语句频度或时间频度。记为 T(n)。一个算法花费的时间与算法中语句的执行次数成正比例，哪个算法中语句执行次数多，它花费时间就多时间复杂度n 称为问题的规模，当 n 不断变化时，时间频度 T(n) 也会不断变化。但有时我们想知道它变化时呈现什么规律。为此，我们引入时间复杂度概念一般情况下，...

2019-03-28 20:13:33 1377

原创 Scala 优雅入门 (八) 数据结构 - 列表

ListScala 中的 List 和 Java List 不一样，在 Java 中 List 是一个接口，真正存放数据是 ArrayList，而 Scala 的 List 可以直接存放数据，就是一个 object，默认情况下 Scala 的 List 是不可变的，List 属于序列 Seqval List = scala.collection.immutable.List...

2019-03-25 21:05:53 268

原创 azkaban 报错：javax.net.ssl.SSLException: Unrecognized SSL message, plaintext connection?

javax.net.ssl.SSLException: Unrecognized SSL message, plaintext connection? at sun.security.ssl.InputRecord.handleUnknownRecord(InputRecord.java:671) at sun.security.ssl.InputRecord.r...

2019-03-25 19:51:45 3600

原创 Kylin 报错 oops！org/apache/hadoop/hive/conf/HiveConf http-bio-7070-exec-10 NoClassDefFoundError

在 kylin 中加载 hive 表时，弹出提示框，内容是 “oops！org/apache/hadoop/hive/conf/HiveConf”，无法加载 hive 表，查找 kylin 的日志时发现，弹出提示框的原因是因为出现错误：ERROR [http-bio-7070-exec-10] controller.TableController:189 : org/apache/hadoop/h...

2019-03-23 12:04:55 964

原创 flume 报错 java.nio.BufferUnderflowException

在 flume 与 kafka 对接的数据流中出现的问题java.nio.BufferUnderflowExceptionflume 日志中报错信息如下:ERROR [kafka-producer-network-thread | producer-1] (org.apache.kafka.clients.producer.internals.Sender.run:130) - U...

2019-03-22 16:35:02 433

原创 Scala 优雅入门 (七) 数据结构 - 数组

集合概念Scala 同时支持不可变集合和可变集合两个主要的包: 不可变集合：scala.collection.immutable 可变集合： scala.collection.mutable Scala 默认采用不可变集合，对于几乎所有的集合类，Scala都同时提供了可变(mutable)和不可变(immutable)的版本 Scala 的集合有三大类：序列 Seq、集 Se...

2019-03-18 21:54:57 227

原创 Scala 优雅入门 (六) 隐式转化

隐式函数自动类型转化隐式转换函数是以 implicit 关键字声明的带有单个参数的函数。这种函数将会自动应用，将值从一种类型转换为另一种类型, 隐式函数可以优雅的解决数据类型转换, 示例:implicit def f1(d:Double): Int = { //底层会生成一个方法 f1$1 d.toInt}val n1: Int = 3.4 //=> val n...

2019-03-18 21:35:08 127

原创 Flume 组件介绍

名称解析 Event 一个数据单元，带有一个可选的消息头，其实就是一条消息，一个日志；（Kafka 的消息没有消息头，因此，Flume 的消息进入 Kafka 后，消息头就丢失了） Flow 数据流，Event 从源点到达目的点的迁移的抽象 Client ...

2019-03-18 19:27:55 240

原创 Kafka 数据丢失和数据重复的原因和解决办法

数据丢失的原因Kafka 消息发送分同步 (sync)、异步 (async) 两种方式，默认使用同步方式，可通过 producer.type 属性进行配置；通过 request.required.acks 属性进行配置：值可设为 0, 1, -1(all) -1 和 all 等同0 代表：不等待 broker 的 ack，这一操作提供了一个最低的延迟，broker 一接收到还没有...

2019-03-18 19:10:43 11675 5

原创快捷键神器 for windows

麻雀虽小, 五脏俱全开源免费, Auto hotkey 实现, 资源占用率低功能如下:自定义快捷键启动, 多任务/多桌面快速切换, 快捷截图/切歌,以及我们工程师最最需要的主键盘区快捷编辑文本, 比如上下左右/数字/光标移动, 等等, 都是你想要的功能例如这样的:按住空格就可以使用以下功能, 不用再麻烦的移动到方向键区啦Github 地址:https://gi...

2019-03-18 16:48:03 417

原创 Kafka 消费快的原因

1. 使用多分区机制, 构建消费者组, 多个消费者同时消费, 速度提高数倍2. 底层使用 log 形式即 segment 储存, 使用二分查找快速定位 offset.一个分区被分成多个segment ,segment 文件由两部分组成，分别为 “.index” 文件和 “.log” 文件，分别表示为segment索引文件和数据文件（引入索引文件的目的就是便于利用二分查找快速定位 me...

2019-03-18 16:32:03 624

转载 Spark 中 DataFrame 与 Pandas 中 DataFrame 对比表格

出处：http://www.lining0806.com/spark 与 pandas 中 dataframe 对比 Pandas Spark 工作方式单机 single machine tool，没有并行机制 parallelism 不支持 Hadoop，处理大量数据有瓶颈分布式并行计算框架，内建并行机制 parallelism，所有的数据和操作...

2019-03-11 11:56:46 319

原创 Scala 优雅入门 (五) 面向对象

语法Scala 语法中，类并不声明为public，所有这些类都具有公有可见性(即默认就是public)一个 Scala 源文件可以包含多个类, 每个类默认都是 publicScala 中声明一个属性,必须显式的初始化，然后根据初始化数据的类型自动推断，属性类型可以省略如果赋值为 null, 则一定要加类型，因为不加类型, 那么该属性的类型就是 Null 类型.如果在定义属性时...

2019-03-09 17:02:20 377

原创 Scala 优雅入门 (四) 函数式编程

Scala 中函数的定义def 函数名 ([参数名: 参数类型], ...)[[: 返回值类型] =] { 语句... //完成某个功能 return 返回值}方法转换函数main { //创建对象 val dog = new Dog println(dog.sum(10,20)) //方法转成函数 val f1 = d...

2019-03-09 16:41:25 482

原创 GitHub 上的 Awesome 系列开发资源大全系列

【Java 资源大全】https://github.com/jobbole/awesome-java-cn【Python 资源大全】https://github.com/jobbole/awesome-python-cn【JS 资源大全】https://github.com/jobbole/awesome-javascript-cn【CSS 资源大全】...

2019-03-09 14:06:33 2424

原创 Scala 优雅入门 (三) for 循环

Scala 中有 while, do while, for 循环这里拿常用的 for 循环来讲常用的 for 循环形式有两种前后闭合（包括1 和 3）for(i <- 1 to 3){ // 这里的 1 to 3 也可以是一个集合 print(i + " ")}前闭后开（包括1 不包括 3）for(i <- 1 until 3) { pr...

2019-03-06 21:36:15 669

原创 Spark 中的 aggregateByKey 最清晰阐释

直译过来是按照 Key 进行聚合源码如下:说明:第一个参数是，给每一个分区中的每一种key一个初始值第二个是个函数， Seq Function，这个函数就是用来先对每个分区内的数据按照 key 分别进行定义进行函数定义的操作第三个是个函数， Combiner Function，对经过 Seq Function处理过的数据按照 key 分别进行进行函数定义的操作也可...

2019-03-06 20:27:17 2272 3

原创十分详细的 Spark 在线教程

感谢 zhouzhihubeyond 的原创教程，在这里根据他博客中部分已经有 Spark 的相关文章了部分整理Spark 修炼之道（进阶篇）——Spark 入门到精通（16 讲）第一阶段环境篇Spark 修炼之道（进阶篇）——Spark 入门到精通：第一节 Spark 1.5.0 集群搭建【点击打开】Spark 修炼之道（进阶篇）——Spark 入门到精通：第二节 Hadoop...

2019-03-06 16:39:39 16701 4

原创 Spark 中 Yarn 运行模式

简介spark 的 yarn 运行模式根据Driver 在集群中的位置分成两种：1）yarn-client客户端模式2）yarn-cluster集群模式yarn 模式和 standalone 模式不同，standalone 模式需要启动 spark 独立集群，这样 SparkContext 才能与 Master 进行交互通信。而 yarn 模式的资源管理全部托管给的 Reso...

2019-03-05 12:10:58 1202

原创 Scala 优雅入门(二) 变量

语法1. var | val 变量名 [: 变量类型] = 变量值2. 声明变量时，类型可以省略（类型推断）3. 类型确定后，就不能修改，Scala 是强数据类型语言.4. 在声明/定义一个变量时，可以使用 var 或者 val 来修饰， var 修饰的变量可改变，val 修饰的变量不可改 (推荐使用val,线程安全，使用效率高)5. val 修饰的变量在编译后，等同于加上 f...

2019-03-04 21:03:47 337

原创 Scala 优雅入门(一) 快速开始

本教程为总结笔记, 特点是简洁, 重点突出, 逻辑层级分明教程可能不会十分全面, 因为 Scala 中语法非常多, 这里只讲重点和经常使用的, 旨在快速掌握工作中需要的 80% 技能, 有如有错误, 欢迎指正~概述创始人马丁·奥德斯基（Martin Odersky）Scala 源代码(.scala) 会被编译成 Java 字节码(.class)，然后运行于 JVM之上，...

2019-03-04 20:47:15 391

RayfunC的博客