![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据Spark
我承包的鱼塘
奋斗的少年
展开
-
Hadoop 之 HDFS HA 原理和服务
Hadoop HDFS: HDFS在hadoop中是一个分布式文件存储系统,hdfs非常重要,它是大数据的基石,像hbase,hive等都是依赖于它。 2. HDFS系统有两种服务 2.1 Namenode: 这个服务管理着文件的元数据,...原创 2019-01-23 11:05:10 · 491 阅读 · 0 评论 -
Scala 编程基础 -- 类以及类的继承
Scala 类的继承特点: 1. Scala 是单继承 2. Scala 子类重写父类的非抽象方法,属性必须使用override 关键字 3. Scala 继承关键字extends看一个例子:class Point(val xc: Int, val yc: Int) { var x: Int = xc var y: Int = yc ...原创 2019-02-20 22:59:37 · 330 阅读 · 0 评论 -
Scala -- 基础集合笔记
记录一下,Scala集合:List Map Set Iterator Option[T] List: 是一个不可变的列表,列表都有相同的数据类型#创建空列表 val empty: List[Nothing] = List() 或者 val empty = Nil#创建二维列表: val dim: List[List[Int]] = List(List(1,2,3,4)...原创 2019-02-20 21:08:11 · 129 阅读 · 0 评论 -
python 通过thrift服务连接Hbase
一直在找python连接Hbase的方法,方法之一是thrift 服务,Hbase还提供thrift2服务,这次我们使用thrift服务连接Hbase。需要安装两个包: pip install thriftpip install hbase-thriftHBase 开启thrift服务: hbase-daemon.sh start thrift连接Hbase:...原创 2019-01-29 23:55:34 · 668 阅读 · 0 评论 -
Spark编程基础 --pyspark
以前记录的一些笔记,有点懒直接copy了spark: rdd: resilient distributed dataset spark由一个sparkContext发启,由各个work节点的执行器执行的并行计算task. 核心是RDD 将数据转换成RDD 1. parallelize, 序列化...原创 2019-02-25 17:56:03 · 1255 阅读 · 0 评论 -
Scala编程基础--traint和匹配
traint相当于定义了一个接口例如:trait Equal { def isEqual(x:Any) :Boolean def isNotEqual(x:Any) :Boolean = !isEqual(x)}接口 子类中必须重写(不需要使用关键字override)class Point(xc:Int, yc:Int) extends Equal{ var x: ...原创 2019-02-25 17:06:18 · 1079 阅读 · 0 评论 -
Scala编程语言-基础笔记
实在没办法我喜欢Spark的RDD思想,所以才学习Scala语言的,这里就当做笔记了.Scala支持的数据类型:String Char Boolean Unit Long Int Short Double Null AnyRefScala命名:1. 类名 -- 首字母大写(多个单词也是首字母大写)class SimpleApp{}2. 函数方法 -- ...原创 2019-02-18 15:15:55 · 6966 阅读 · 1 评论 -
LSF与Spark结合部署
IBM LSF 是一个工作负载管理平台,它基于策略管理分布式的系统资源。Spark 是一个基于内存的并行计算框架,计算能力比较强。Spark 与 LSF结合起来,我觉得是一个不错的结合。详细原理参考: https://www.ibm.com/developerworks/cn/analytics/library/ba-cn-spark-ibm-lsf-integration/index...原创 2019-02-17 11:01:30 · 954 阅读 · 0 评论 -
Golang 与Python 连接kafka
1. 安装python golang pip install kafka-python git clone https://github.com/edenhill/librdkafka.git cd librdkafka ./configure --prefix=/usr make && make install pro...原创 2019-01-30 16:00:14 · 388 阅读 · 0 评论 -
PySpark 连接 HBase
曾经我一直在想Spark怎么连接HBase, Spark连接Hive很容易,但是我就是喜欢Spark连接HBase,Hive跑mapreduce执行sql本身执行很慢,所以我一直不太愿意用Hive,我一直追求者性能的优越, 尽管我不清楚Hive建立Hbase外表性能如何。Spark 想要连接 HBase(环境已OK),1. Spark配置 hbase jar包: mkdir ...原创 2019-01-29 22:27:16 · 1859 阅读 · 5 评论 -
Spark 集群配置
Spark 下载: 目前在官方网站上,build好的Spark 有hadoop2.6, hadoop2.7,hadoop版本按需选择Spark 环境依赖: scala 2.11.xSpark资源调度有两种选择(实际生产部署) 1 yarn 2 mesos,当实际生产环境部署spark,需要升级原来的hadoop时(存在风险), 这时可以考虑使用messo...原创 2019-01-23 15:25:47 · 173 阅读 · 0 评论 -
kafka 配置以及python运用
kafka配置: server.properties: 1. broker.id = 0 每台机器配置唯一的broker id 2. zookeeper配置启动服务: 1.启动 zookeeper 集群 2. 启动 kafka bin/kafka-server-start.sh config/server.properties创建...原创 2019-01-23 15:09:52 · 740 阅读 · 0 评论 -
Hive 配置以及运用
Hive 配置,Hive是facebook开源的,用于解决海量结构化数据的统计,它提供了SQL查询功能 Hive架构: 1. 底层的HDFS 2. yarn 的mapreduce 计算(sql语句执行) 3. meta store 可以是mysql,也可以是默认的 配置: 1. 在hive-env.sh中配置: ...原创 2019-01-23 14:55:51 · 108 阅读 · 0 评论 -
HBASE 配置以及运用
HBase是一种基于HDFS的nosql数据库,常常在nosql选择的时候和mongodb 在一起作为选择之一,有人说HBase与mongodb性能差不多,但大多数还是选择HBase,是因为它的写性能很好,强于mongodb。HBase 具有: 容量大,洗稀疏性好,面向列存储的特点。HBase是一种面向列存储(以key-value的形式)的nosql数据,从服务上看 1. m...原创 2019-01-23 14:28:26 · 100 阅读 · 0 评论 -
Hadoop 之 yarn
Yarn 在hadoop中主要负责任务调度: 1. 运行多个appication 程序, 2. 为application 运行分配资源。yarn有两种服务: 1. ResourceManager 2. NodeManager ResourceManager主要任务: 1. 接受客户端的任务...原创 2019-01-23 12:55:12 · 109 阅读 · 0 评论 -
Scala -- 访问修饰符
Scala 访问修饰符有3种public ,protected, private 与Java类似private 修饰符, 表示该属性或方法对外不可见(实例不可调用),只能在本类中调用protected修饰符,表示该函数只能在派生类中调用public 默认修饰符,对外可见。现在主要看的是private等可以代参数,可以带this,或者其它的package ,或其他的classp...原创 2019-02-20 23:59:35 · 329 阅读 · 0 评论