大数据
小黑王HK
这个作者很懒,什么都没留下…
展开
-
Kafka 介绍
主题与记录主题是发布记录的类别或源名称。一个主题可以有零个、一个或多个订阅数据的消费者。对于每个主题,Kafka集群维护一个分区日志。每个分区是一个有序、不可变的记录序列,结构化提交记录不断地添加到此记录序列之后。分区中的每条记录都被分别赋予一个名为offset的顺序id号码,此id唯一标识了分区中的每一条记录。Kafka集群使用一个可配置的保存期持久保存所有的发布记录,无论它...翻译 2018-10-26 11:27:59 · 275 阅读 · 0 评论 -
Scala comprehension表达式
理解Scala提供了轻量级符号来表示序列理解(sequence comprehensions)。理解具有形式for (enumerators) yield e,此处的enumerators指的是分号间隔的枚举器列表。枚举器表示引入新变量的生成器,或过滤器。理解计算通过枚举器生成的每个绑定的主体e,并且返回这些值的序列。case class User(name: String, age: In...翻译 2018-10-29 15:23:54 · 494 阅读 · 0 评论 -
Scala 类型边界、内部类
内部类Scala中,可以令类作为类的成员。与类Java的语言不同,这些语言中内部类是封闭类的成员,Scala中的内部类绑定在外部对象上。假设期望编译器能够在编译期间阻止将节点与图的对应关系混乱,路径依赖类型可以解决此问题。...翻译 2018-10-31 10:21:38 · 265 阅读 · 0 评论 -
Scala 抽象类型、复合类型、自类型
抽象类型特质与抽象类可以具有抽象类型成员,这意味着具体实现将会定义这些成员的实际类型。通常,使用抽象类型的特质或类常常与匿名类实例化一起使用。# 定义特质(使用抽象类型)trait Buffer { type T val element: T}# 定义抽象类(使用抽象类型)abstract class SeqBuffer extends Buffer { type U...翻译 2018-10-31 11:48:33 · 172 阅读 · 0 评论 -
Scala 编程基础
1 表达式表达式是可计算的语句。1 + 1"ss" + "gg"常量使用val为表达式的结果命名。val x = 1 + 1引用常量不需要重计算表达式。常量不能被重赋值。常量类型可以被推导出,也可以显式指定类型。# 显式指定常量类型val x:Int = 1 + 1变量变量与常量相似,只不过变量可以被重赋值。使用var定义变量。var与val一样,也可以显式...翻译 2018-10-24 10:36:06 · 92 阅读 · 0 评论 -
Scala 统一类型
Scala中,所有的值包括数字值与函数都具有类型。下图为类型层级的一个子集。Scala类型层级Any是所有类型的超类型,被称为顶级类型。它定义了一些通用方法,例如equals、hashCode与toString。Any有两个直接子类:AnyVal与AnyRef。AnyVal表示值类型。存在九种预定义的值类型并且它们都是非可用类型:Double、Float、Long、Int、Short、B...翻译 2018-10-24 11:15:17 · 291 阅读 · 0 评论 -
Scala 类
Scala中的类是创建对象的蓝本,其中可以包含方法、常量、变量、类型、对象、特质与类,这些被包含的内容称之为成员。1 类定义最低限度的类定义是一个关键字class与一个标识符。类名首字母应该大写。# 最低限度类定义以及实例化class User# 创建类实例(使用关键字new)val user1 = new Usernote:因为没有定义构造器,所以User具有一个默认无参构造...翻译 2018-10-24 12:11:06 · 203 阅读 · 0 评论 -
Scala 隐式参数、隐式转换、多态方法
隐式参数方法可以通过在参数列表开始处使用implicit关键字标识,表示方法的隐式参数列表。如果隐式参数列表的参数没有被正常传入,Scala将会查看其是否能够获取对应类型的隐含值,如果可以,将其自动传入。Scala的搜索流程如下:Scala首先会查找在具有隐式参数块的方法被调用的位置处可以直接访问(不需要前缀)的隐式定义与隐式参数。接着Scala会在所有伴侣对象中查找与隐式候选类型关联...翻译 2018-10-31 15:46:50 · 237 阅读 · 0 评论 -
Scala 类型推断、操作符
类型推断Scala可以自行推导表达式类型,所以不需要进行显式声明。1 忽略类型# 自动推导变量类型val uio = "teset"# 自动推导方法返回值类型def fff(x:Int)=x * x# 推导返回值类型失败(编译器无法推导递归定方法的返回值类型,需要显式声明)def fac(n:Int) = if(n == 0) 1 else n * fac(n - 1)#...翻译 2018-10-31 16:40:12 · 587 阅读 · 0 评论 -
Scala 传名参数、注解
传名参数传名参数仅在使用时求值。在类型之前添加=>,即可令参数为传名参数。定义传名参数def ggg(kkk: => Int) = kkk * 999传名参数的优势在于,如果函数体中没有使用过此参数,此参数不会求值,并且它们也只会被求一次值。如果参数是计算密集的求值或者长运行时间的代码(例如,获取URL),传名参数提供的延迟参数计算直到参数被使用的机制有助于提升性能。注...翻译 2018-10-31 20:39:11 · 534 阅读 · 0 评论 -
Scala 默认参数值、命名参数
默认参数值Scala提供了给参数设置默认值的机制,这样,便可以令调用者在调用方法时省略这些参数。# 定义具有默认参数的方法def log(kkk:String, iii:String="GG")=println(s"$kkk $iii")# 忽略具有默认值的参数log("hhhhhhh")如果调用者省略了某一参数,那么此参数之后的参数需要指定名称。def lll(kkk:Str...翻译 2018-10-31 21:09:54 · 2289 阅读 · 0 评论 -
Scala 包与导入(完结)
包与导入Scala使用包来创建用于模块化程序的命名空间。1 创建包通过在Scala文件的顶部声明一个或多个包名称可以创建包package com.hk.test1惯例是将包命名为与包含Scala文件的目录相同的名称。但是,Scala与文件布局无关。package users的sbt项目目录结构如下:位于相同包下的多个Scala文件具有相同的包声明。另一种声明包的方式是使用花括...翻译 2018-10-31 21:47:58 · 4141 阅读 · 0 评论 -
Spark 集群模式概览
集群模式概览此文档简单介绍了Spark如何在集群上应用,并且使得理解涉及到的组件更为容易。1 组件Spark应用作为集群上独立的进程集合运行,并且通过主程序(称之为驱动程序)中的SparkContext对象进行调节。为了在集群上运行,SparkContext连接多种类型的集群管理器(Spark自己的独立集群管理器、Mesos或YARN),集群管理器用于跨应用分配资源。一旦连接,Spar...翻译 2018-11-01 14:38:11 · 177 阅读 · 0 评论 -
Spark RDD编程(一)——概览、链接Spark、初始化Spark
概览从高层看,每个Spark应用都由驱动程序构成,驱动程序用来运行用户的main函数并且执行集群上的不同的并行操作。翻译 2018-11-01 16:31:31 · 481 阅读 · 0 评论 -
Scala 泛型类、变化(variances)
方差变化是复杂类型的子类关系与它们的组件类型的子类型关系的相关性。Scala支持范型类的类型参数的变化注解以允许它们在没有使用注解的情况下,是协变的、逆变的或不变的。在类型系统中使用变化可以在复杂类型间建立直观的连接,而缺少变化可以限制类抽象的复用。class Foo[+A] // A covariant classclass Bar[-A] // A contravariant clas...翻译 2018-10-31 09:16:20 · 220 阅读 · 0 评论 -
Scala 正则表达式模式、对象提取器
正则表达式模式正则表示式是用于在数据中查找模式(或缺少模式)的字符串。可使用.r方法将任意字符串转化为正则表达式。翻译 2018-10-29 14:08:09 · 706 阅读 · 0 评论 -
Spark综述
Spark综述Apache Spark是一个快速、通用的集群计算系统。它提供了高层次的Java、Scala、Python与R语言API,以及一个支持通用图形计算的优化引擎。它还提供了丰富的高级工具集,eg:用于处理结构化数据的Spark SQL、用于机器学习的MLlib、用于图形处理的GrapX以及Spark Streaming。 翻译源:http://spark.apache...翻译 2018-11-01 09:08:25 · 313 阅读 · 0 评论 -
Ambari
介绍Apache Ambari旨在通过开发用于供应、管理与监控Apache Hadoop集群的软件来简化Hadoop管理。Ambari提供了一个直观的、易于使用的基于RESTful APIs支持的Hadoop管理web UI。 提供Hadoop集群Ambari提供了向导用于安装基于任意数量主机的Hadoop服务 Ambari为Hadoop集群处理Hadoop服务配置 管...翻译 2018-10-03 22:29:23 · 304 阅读 · 0 评论 -
Hadoop FileSystem Shell
综述 File System(FS)shell包括多种类shell命令,这些命令可以直接与HDFS以及Hadoop支持的其他文件系统。FS Shell的调用格式:bin/hadoop fs <args> 所有的shell命令都以URIs路径作为参数。URI的格式为:scheme://authority/pathps:对于HDFS,scheme...翻译 2018-10-06 21:29:49 · 222 阅读 · 0 评论 -
centOS 7 安装Ambari
目录1.下载Ambari仓库文件2.安装Ambari3.构建Ambari服务器4.启动Ambari服务器5.登陆Ambari服务器参考资料 1.下载Ambari仓库文件wget -nv http://public-repo-1.hortonworks.com/ambari/centos7/2.x/updates/2.7.1.0/ambari.repo -...原创 2018-10-08 10:52:53 · 547 阅读 · 0 评论 -
Elasticsearch基础概念
目录基础概念1.近实时(Near Realtime,NRT)2.集群(Cluster)3.结点(Node)4.索引(Index)5.类型(Type,6.0.0中被废弃)6.文档(Document)7.片(Shards)与备份(replicas)翻译源:Elasticsearch 6.4文档 基础概念最开始就理解Elasticsearch的核心概...翻译 2018-10-09 17:28:07 · 301 阅读 · 0 评论 -
Elasticsearch——读写文档
目录1.介绍2.基础写模型故障处理3.基础读模型故障处理4.一些简单的影响5.故障翻译源:Elasticsearch 6.4 文档 1.介绍Elasticsearch中的每一个索引都会被切片然后每一个切片都会有多份复制。这些复制被称作复制组,并且当文档被添加或移除时,复制组中的复制必须保证同步。如果做不到这一点,从一个复制中读取的结果将与从...翻译 2018-10-11 08:38:13 · 679 阅读 · 0 评论 -
CentOS 7 安装clickhouse
1 安装必要的包yum install -y pygpgme yum-utils2 创建必要的文件创建yum的仓库配置文件。# 在/etc/yum.repos.d下创建文件altinity_clickhouse.repo文件vim /etc/yum.repos.d/altinity_clickhouse.repo在文件中写入以下内容:[altinity_clickhouse]...原创 2018-10-25 10:15:32 · 1156 阅读 · 1 评论 -
Scala 特质
Scala 特质特质用于类之间共享接口与字段,类似于Java的接口。类可以扩展特质,但是特质不能被实例化,因此也没有参数。1 定义特质# 定义最小限度特质trait HairColor# 使用泛型与抽象方法trait Iterator[A]{ def hasNext:Boolean def next():A}2 使用特质# 类扩展特质class IntIt...翻译 2018-10-25 11:04:58 · 137 阅读 · 0 评论 -
Scala 混入、高阶函数
用于组合类的特质称为混入。翻译 2018-10-29 08:39:31 · 447 阅读 · 0 评论 -
Scala 嵌套方法、多参数列表、样例类
嵌套方法Scala中可以嵌套方法定义。def factorial(x:Int):Int = { def fact(x: Int, accumlator: Int): Int = { if(x <= 1) accumlator else fact(x-1, x*accumlator) } fact(x,1)}多参数列表方法...翻译 2018-10-29 09:46:03 · 922 阅读 · 0 评论 -
Scala 模式匹配
模式匹配模式匹配是一种根据模式检查值的机制。一个成功的匹配也可以将一个值分解为它的组成部件。它类似于Java中switch语句的强化版本,可以用用于替换一系列if/else语句。1 语法匹配表达式需要有一个值,match关键字,以及最少一个case子句。def matchTest(x:Int):String = x match { case 1 => "one" c...翻译 2018-10-29 10:46:56 · 137 阅读 · 0 评论 -
Scala 单例对象
单例对象对象是只有一个实例的类。当它被引用时,它会被怠慢创建,就像lazy val一样。作为顶层值,对象是单例。作为一个封闭类的成员或本地值,它的行为与lazy val完全相同。1 定义单例对象一个对象是一个值。对象的定义类似class,但是使用关键字object。# 定义对象object Box# 定义对象(具有方法)object Logger { def info(m...翻译 2018-10-29 11:51:33 · 1371 阅读 · 0 评论 -
Apache Hadoop YARN架构
Apache Hadoop YARNYARN的基本思想时将资源管理功能与作业调度/监控功能划分为单独的服守护进程。实现的思路是设置一个全局ResourceManager(RM)并且为每个应用单独设置一个ApplicationMaster(AM)。一个应用既可以是一个单独的作业,也可以是作业的DAG。ResourceManager与NodeManager构成了数据计算框架。ResourceMa...翻译 2018-11-01 17:40:43 · 272 阅读 · 0 评论