自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 spark笔记之通过spark实现点击流日志分析案例

1. 访问的pvpackage cn.itcast import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext} object PV { def main(args: Array[String]): Unit = { //todo:创建sparkconf,设置ap...

2018-08-31 13:57:24 533

原创 spark笔记之Spark运行架构

12. Spark运行基本流程Spark运行基本流程参见下面示意图:1)   构建Spark Application的运行环境(启动SparkContext),SparkContext向资源管理器(可以是Standalone、Mesos或YARN)注册并申请运行Executor资源;2)  资源管理器分配Executor资源并启动Executor,Executor运行情况将随着心跳...

2018-08-31 10:31:03 156

原创 spark笔记之RDD容错机制之checkpoint

10.checkpoint是什么(1)、Spark 在生产环境下经常会面临transformation的RDD非常多(例如一个Job中包含1万个RDD)或者具体transformation的RDD本身计算特别复杂或者耗时(例如计算时长超过1个小时),这个时候就要考虑对计算结果数据持久化保存;(2)、Spark是擅长多步骤迭代的,同时擅长基于Job的复用,这个时候如果能够对曾经计算的过程产生...

2018-08-30 09:28:55 416

原创 spark笔记之Spark任务调度

任务调度流程图各个RDD之间存在着依赖关系,这些依赖关系就形成有向无环图DAG,DAGScheduler对这些依赖关系形成的DAG进行Stage划分,划分的规则很简单,从后往前回溯,遇到窄依赖加入本stage,遇见宽依赖进行Stage切分。完成了Stage的划分。DAGScheduler基于每个Stage生成TaskSet,并将TaskSet提交给TaskScheduler。TaskSch...

2018-08-29 14:42:45 133

原创 spark笔记之DAG的生成

什么是DAGDAG(Directed Acyclic Graph)叫做有向无环图,原始的RDD通过一系列的转换就形成了DAG,根据RDD之间依赖关系的不同将DAG划分成不同的Stage(调度阶段)。对于窄依赖,partition的转换处理在一个Stage中完成计算。对于宽依赖,由于有Shuffle的存在,只能在parent RDD处理完成后,才能开始接下来的计算,因此宽依赖是划分Stage的依...

2018-08-29 09:23:46 594

原创 spark笔记之RDD的缓存

Spark速度非常快的原因之一,就是在不同操作中可以在内存中持久化或者缓存数据集。当持久化某个RDD后,每一个节点都将把计算分区结果保存在内存中,对此RDD或衍生出的RDD进行的其他动作中重用。这使得后续的动作变得更加迅速。RDD相关的持久化和缓存,是Spark最重要的特征之一。可以说,缓存是Spark构建迭代式算法和快速交互式查询的关键。7.1RDD缓存方式RDD通过persist方法或...

2018-08-28 14:24:46 242

原创 spark笔记之RDD的依赖关系

6.1RDD的依赖RDD和它依赖的父RDD的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency)。6.2窄依赖窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用总结:窄依赖我们形象的比喻为独生子女6.3宽依赖宽依赖指的是多个子RDD的Partition会依赖同一个父RDD的P...

2018-08-28 10:12:24 202

原创 spark笔记之RDD常用的算子操作

Spark Rdd的所有算子操作,请见《sparkRDD函数详解.docx》启动spark-shell 进行测试:spark-shell --master spark://node1:7077练习1:map、filter//通过并行化生成rddval rdd1 = sc.parallelize(List(5, 6, 4, 7, 3, 8, 2, 9, 1, 10))//对r...

2018-08-27 11:49:19 267

原创 spark笔记之RDD编程API

4.1RDD的算子分类        Transformation(转换):根据数据集创建一个新的数据集,计算后返回一个新RDD;例如:一个rdd进行map操作后生了一个新的rdd。Action(动作):对rdd结果计算后返回一个数值value给驱动程序;例如:collect算子将数据集的所有元素收集完成返回给驱动程序。4.2TransformationRDD中的所有转换都是延...

2018-08-14 14:27:23 280

原创 SparkRDD之弹性分布式数据集RDD

2.RDD概述2.1什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将数据缓存在内存中,后续的查询能够重用这些数据,这极大地提升了查询速度。Datase...

2018-08-14 10:08:33 610

原创 spark笔记之Scala Actor并发编程

1.1. 课程目标1.1.1. 目标一:熟悉Scala Actor并发编程1.1.2. 目标二:为学习Akka做准备注:Scala Actor是scala 2.10.x版本及以前版本的Actor。Scala在2.11.x版本中将Akka加入其中,作为其默认的Actor,老版本的Actor已经废弃。1.2. 什么是Scala  Actor1.2.1. 概念Scala中的Actor能够...

2018-08-13 14:40:52 569

原创 spark笔记之Scala中的上下界

1.1. 上界、下界介绍在指定泛型类型时,有时需要界定泛型类型的范围,而不是接收任意类型。比如,要求某个泛型类型,必须是某个类的子类,这样在程序中就可以放心的调用父类的方法,程序才能正常的使用与运行。此时,就可以使用上下边界Bounds的特性;Scala的上下边界特性允许泛型类型是某个类的子类,或者是某个类的父类;(1) U >: T这是类型下界的定义,也就是U必须是类型T的...

2018-08-13 11:54:45 283

原创 spark笔记之Scala中的协变、逆变、非变

1.1. 协变、逆变、非变介绍协变和逆变主要是用来解决参数化类型的泛化问题。Scala的协变与逆变是非常有特色的,完全解决了Java中泛型的一大缺憾;举例来说,Java中,如果有 A是 B的子类,但 Card[A] 却不是 Card[B] 的子类;而 Scala 中,只要灵活使用协变与逆变,就可以解决此类 Java 泛型问题;由于参数化类型的参数(参数类型)是可变的,当两个参数化类型的参数...

2018-08-10 14:44:42 332

原创 spark笔记之模式匹配和样例类

阶有一个十分强大的模式匹配机制,可以应用到很多场合:如开关语句,类型检查等并且阶还提供了样例类,对模式匹配进行了优化,可以快速进行匹配。1.1。匹配字符串 [AppleScript] 纯文本查看 复制代码 ? 01 02 03 04 05 06 07 08...

2018-08-10 09:18:32 2103

原创 spark笔记之类、对象、继承、特质

Scala的类与Java、C++的类比起来更简洁,学完之后你会更爱Scala!!!1.1. 类1.1.1. 类的定义[AppleScript] 纯文本查看 复制代码? 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 ...

2018-08-09 15:59:18 266

原创 spark笔记之数组、映射、元组、集合

1.1. 数组1.1.1. 定长数组和变长数组(1)定长数组定义格式:val arr=new Array[T](数组长度)(2)变长数组定义格式:val arr = ArrayBuffer[T]()注意需要导包:import scala.collection.mutable.ArrayBuffer [AppleScript] 纯文本查看 复制代码 ? ...

2018-08-09 09:31:27 7359

原创 spark笔记之Scala基础

1.1. 声明变量[AppleScript] 纯文本查看 复制代码? 01 02 03 04 05 06 07 08 09 10 11 12 13 package cn.itcast.scala object VariableDemo {   de...

2018-08-08 15:16:46 191

原创 spark笔记之Scala编译器安装

1.1. 安装JDK因为Scala是运行在JVM平台上的,所以安装Scala之前要安装JDK。1.2. 安装Scala1.2.1. Windows安装Scala编译器访问Scala官网http://www.scala-lang.org/下载Scala编译器安装包,目前最新版本是2.12.x,这里下载scala-2.11.8.msi后点击下一步就可以了(自动配置上环境变量)。也可以下载s...

2018-08-08 09:44:36 658 1

原创 spark笔记之Scala概述

1.1. 什么是ScalaScala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。http://www.scala-lang.org1.2. 为什么要学Scala1、优雅:这是框架设计师第一个要考虑的问题,框架的用户是应用开发程序员,API是否优雅直接影响用户体验。2、速...

2018-08-07 09:58:03 207

原创 spark笔记之Scala编程的学习目标

.目标1:熟练使用scala编写Spark程序目标2:动手编写一个简易版的Spark通信框架目标3:为阅读Spark内核源码做准备 

2018-08-06 14:40:58 278

原创 Tornado-数据库(torndb包)

1、torndb数据库简介    在Tornado3.0版本以前提供tornado.database模块用来操作MySQL数据库,而从3.0版本开始,此模块就被独立出来,作为torndb包单独提供。torndb只是对MySQLdb的简单封装,不支持Python 3。2、torndb安装    pip install torndb3、连接初始化    class Applicatin(tornado...

2018-08-06 10:01:55 419

原创 Tornado模板

--------------------静态文件--------------------1、static_path:通过向web.Application类的构造函数传递一个名为static_path的参数来告诉Tornado从文件系统的一个特定位置提供静态文件    app = tornado.web.Application(        [(r'/', IndexHandler)],     ...

2018-08-03 11:45:02 210

原创 Tornado框架简介(二)

--------------------Application--------------------1、settings    1、debug=True:,设置tornado是否工作在调试模式,默认为False即工作在生产模式。当设置debug=True 后,tornado会工作在调试/开发模式,在此种模式下,可以根据设置修改tornado提供的其他几种特性    2、autoreload=Tr...

2018-08-03 09:11:05 198

原创 Tornado框架简介

-------------------简介-------------------1、概念:    Tornado全称Tornado Web Server,是一个用Python语言写成的Web服务器兼Web应用框架,由FriendFeed公司在自己的网站FriendFeed中使用,被Facebook收购以后框架在2009年9月以开源软件形式开放给大众。2、特点:    1、作为Web框架,是一个轻量...

2018-08-02 09:59:47 460 1

原创 python线程与进程手记

-----------------------------线程---------------------------#线程应用的第一种方式:thread模块是比较底层的模块#import thread:引用的模块#thread.start_new_thread(defName,()):线程的创建#thread.exit_thread():线程的结束#线程应用的第二种方式:threadi...

2018-08-01 11:24:31 100

原创 django全文检索

-------------------linux下配置操作1、在虚拟环境中依次安装包1、pip install django-haystackhaystack:django的一个包,可以方便地对model里面的内容进行索引、搜索,设计为支持whoosh,solr,Xapian,Elasticsearc四种全文检索引擎后端,属于一种全文检索的框架2、pip install whooshw...

2018-08-01 09:51:19 206

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除