2018年08月_我是楠楠

原创 spark笔记之通过spark实现点击流日志分析案例

1．访问的pvpackage cn.itcast import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext} object PV { def main(args: Array[String]): Unit = { //todo：创建sparkconf，设置ap...

2018-08-31 13:57:24 533

原创 spark笔记之Spark运行架构

12. Spark运行基本流程Spark运行基本流程参见下面示意图：1) 构建Spark Application的运行环境（启动SparkContext），SparkContext向资源管理器（可以是Standalone、Mesos或YARN）注册并申请运行Executor资源；2) 资源管理器分配Executor资源并启动Executor，Executor运行情况将随着心跳...

2018-08-31 10:31:03 156

原创 spark笔记之RDD容错机制之checkpoint

10.checkpoint是什么（1）、Spark 在生产环境下经常会面临transformation的RDD非常多（例如一个Job中包含1万个RDD）或者具体transformation的RDD本身计算特别复杂或者耗时（例如计算时长超过1个小时），这个时候就要考虑对计算结果数据持久化保存；（2）、Spark是擅长多步骤迭代的，同时擅长基于Job的复用，这个时候如果能够对曾经计算的过程产生...

2018-08-30 09:28:55 416

原创 spark笔记之Spark任务调度

任务调度流程图各个RDD之间存在着依赖关系，这些依赖关系就形成有向无环图DAG，DAGScheduler对这些依赖关系形成的DAG进行Stage划分，划分的规则很简单，从后往前回溯，遇到窄依赖加入本stage，遇见宽依赖进行Stage切分。完成了Stage的划分。DAGScheduler基于每个Stage生成TaskSet,并将TaskSet提交给TaskScheduler。TaskSch...

2018-08-29 14:42:45 133

什么是DAGDAG(Directed Acyclic Graph)叫做有向无环图，原始的RDD通过一系列的转换就形成了DAG，根据RDD之间依赖关系的不同将DAG划分成不同的Stage(调度阶段)。对于窄依赖，partition的转换处理在一个Stage中完成计算。对于宽依赖，由于有Shuffle的存在，只能在parent RDD处理完成后，才能开始接下来的计算，因此宽依赖是划分Stage的依...

2018-08-29 09:23:46 594

原创 spark笔记之RDD的缓存

Spark速度非常快的原因之一，就是在不同操作中可以在内存中持久化或者缓存数据集。当持久化某个RDD后，每一个节点都将把计算分区结果保存在内存中，对此RDD或衍生出的RDD进行的其他动作中重用。这使得后续的动作变得更加迅速。RDD相关的持久化和缓存，是Spark最重要的特征之一。可以说，缓存是Spark构建迭代式算法和快速交互式查询的关键。7.1RDD缓存方式RDD通过persist方法或...

2018-08-28 14:24:46 242

原创 spark笔记之RDD的依赖关系

6.1RDD的依赖RDD和它依赖的父RDD的关系有两种不同的类型，即窄依赖（narrow dependency）和宽依赖（wide dependency）。6.2窄依赖窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用总结：窄依赖我们形象的比喻为独生子女6.3宽依赖宽依赖指的是多个子RDD的Partition会依赖同一个父RDD的P...

2018-08-28 10:12:24 202

原创 spark笔记之RDD常用的算子操作

Spark Rdd的所有算子操作，请见《sparkRDD函数详解.docx》启动spark-shell 进行测试：spark-shell --master spark://node1:7077练习1：map、filter//通过并行化生成rddval rdd1 = sc.parallelize(List(5, 6, 4, 7, 3, 8, 2, 9, 1, 10))//对r...

2018-08-27 11:49:19 267

原创 spark笔记之RDD编程API

4.1RDD的算子分类 Transformation（转换）：根据数据集创建一个新的数据集，计算后返回一个新RDD；例如：一个rdd进行map操作后生了一个新的rdd。Action（动作）：对rdd结果计算后返回一个数值value给驱动程序；例如：collect算子将数据集的所有元素收集完成返回给驱动程序。4.2TransformationRDD中的所有转换都是延...

2018-08-14 14:27:23 280

原创 SparkRDD之弹性分布式数据集RDD

2.RDD概述2.1什么是RDDRDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将数据缓存在内存中，后续的查询能够重用这些数据，这极大地提升了查询速度。Datase...

2018-08-14 10:08:33 610

原创 spark笔记之Scala Actor并发编程

1.1. 课程目标1.1.1. 目标一：熟悉Scala Actor并发编程1.1.2. 目标二：为学习Akka做准备注：Scala Actor是scala 2.10.x版本及以前版本的Actor。Scala在2.11.x版本中将Akka加入其中，作为其默认的Actor，老版本的Actor已经废弃。1.2. 什么是Scala Actor1.2.1. 概念Scala中的Actor能够...

2018-08-13 14:40:52 569

原创 spark笔记之Scala中的上下界

1.1. 上界、下界介绍在指定泛型类型时，有时需要界定泛型类型的范围，而不是接收任意类型。比如，要求某个泛型类型，必须是某个类的子类，这样在程序中就可以放心的调用父类的方法，程序才能正常的使用与运行。此时，就可以使用上下边界Bounds的特性；Scala的上下边界特性允许泛型类型是某个类的子类，或者是某个类的父类；(1) U >: T这是类型下界的定义，也就是U必须是类型T的...

2018-08-13 11:54:45 283

原创 spark笔记之Scala中的协变、逆变、非变

1.1. 协变、逆变、非变介绍协变和逆变主要是用来解决参数化类型的泛化问题。Scala的协变与逆变是非常有特色的，完全解决了Java中泛型的一大缺憾；举例来说，Java中，如果有 A是 B的子类，但 Card[A] 却不是 Card[B] 的子类；而 Scala 中，只要灵活使用协变与逆变，就可以解决此类 Java 泛型问题；由于参数化类型的参数（参数类型）是可变的，当两个参数化类型的参数...

2018-08-10 14:44:42 332

原创 spark笔记之模式匹配和样例类

阶有一个十分强大的模式匹配机制，可以应用到很多场合：如开关语句，类型检查等并且阶还提供了样例类，对模式匹配进行了优化，可以快速进行匹配。1.1。匹配字符串 [AppleScript] 纯文本查看复制代码 ? 01 02 03 04 05 06 07 08...

2018-08-10 09:18:32 2103

原创 spark笔记之类、对象、继承、特质

Scala的类与Java、C++的类比起来更简洁，学完之后你会更爱Scala！！！1.1. 类1.1.1. 类的定义[AppleScript] 纯文本查看复制代码? 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 ...

2018-08-09 15:59:18 266

原创 spark笔记之数组、映射、元组、集合

1.1. 数组1.1.1. 定长数组和变长数组（1）定长数组定义格式：val arr=new Array[T](数组长度)（2）变长数组定义格式：val arr = ArrayBuffer[T]()注意需要导包：import scala.collection.mutable.ArrayBuffer [AppleScript] 纯文本查看复制代码 ? ...

2018-08-09 09:31:27 7359

原创 spark笔记之Scala基础

1.1. 声明变量[AppleScript] 纯文本查看复制代码? 01 02 03 04 05 06 07 08 09 10 11 12 13 package cn.itcast.scala object VariableDemo { de...

2018-08-08 15:16:46 191

原创 spark笔记之Scala编译器安装

1.1. 安装JDK因为Scala是运行在JVM平台上的，所以安装Scala之前要安装JDK。1.2. 安装Scala1.2.1. Windows安装Scala编译器访问Scala官网http://www.scala-lang.org/下载Scala编译器安装包，目前最新版本是2.12.x，这里下载scala-2.11.8.msi后点击下一步就可以了（自动配置上环境变量）。也可以下载s...

2018-08-08 09:44:36 658 1

原创 spark笔记之Scala概述

1.1. 什么是ScalaScala是一种多范式的编程语言，其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台（Java虚拟机），并兼容现有的Java程序。http://www.scala-lang.org1.2. 为什么要学Scala1、优雅：这是框架设计师第一个要考虑的问题，框架的用户是应用开发程序员，API是否优雅直接影响用户体验。2、速...

2018-08-07 09:58:03 207

原创 spark笔记之Scala编程的学习目标

.目标1：熟练使用scala编写Spark程序目标2：动手编写一个简易版的Spark通信框架目标3：为阅读Spark内核源码做准备

2018-08-06 14:40:58 278

原创 Tornado-数据库（torndb包）

1、torndb数据库简介在Tornado3.0版本以前提供tornado.database模块用来操作MySQL数据库，而从3.0版本开始，此模块就被独立出来，作为torndb包单独提供。torndb只是对MySQLdb的简单封装，不支持Python 3。2、torndb安装 pip install torndb3、连接初始化 class Applicatin(tornado...

2018-08-06 10:01:55 419

原创 Tornado模板

--------------------静态文件--------------------1、static_path：通过向web.Application类的构造函数传递一个名为static_path的参数来告诉Tornado从文件系统的一个特定位置提供静态文件 app = tornado.web.Application( [(r'/', IndexHandler)], ...

2018-08-03 11:45:02 210

原创 Tornado框架简介（二）

--------------------Application--------------------1、settings 1、debug=True：，设置tornado是否工作在调试模式，默认为False即工作在生产模式。当设置debug=True 后，tornado会工作在调试/开发模式，在此种模式下，可以根据设置修改tornado提供的其他几种特性 2、autoreload=Tr...

2018-08-03 09:11:05 198

原创 Tornado框架简介

-------------------简介-------------------1、概念： Tornado全称Tornado Web Server，是一个用Python语言写成的Web服务器兼Web应用框架，由FriendFeed公司在自己的网站FriendFeed中使用，被Facebook收购以后框架在2009年9月以开源软件形式开放给大众。2、特点： 1、作为Web框架，是一个轻量...

2018-08-02 09:59:47 460 1

原创 python线程与进程手记

-----------------------------线程---------------------------#线程应用的第一种方式：thread模块是比较底层的模块#import thread：引用的模块#thread.start_new_thread(defName,())：线程的创建#thread.exit_thread()：线程的结束#线程应用的第二种方式：threadi...

2018-08-01 11:24:31 100

原创 django全文检索

-------------------linux下配置操作1、在虚拟环境中依次安装包1、pip install django-haystackhaystack：django的一个包，可以方便地对model里面的内容进行索引、搜索，设计为支持whoosh,solr,Xapian,Elasticsearc四种全文检索引擎后端，属于一种全文检索的框架2、pip install whooshw...

2018-08-01 09:51:19 206

qq_40208605的博客