自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 RDD操作

概述:针对RDD的操作分为两种,一种是Transform变换操作,一种是Action执行操作。Transform操作是懒操作(简称:算子),懒操作不会真正的触发RDD的处理计算;Action操作会触发计算。一、Transform操作1.map(fun): 参数是函数,函数会作用于RDD的每一个元素,并会返回一个RDDval rdd = sc.makeRDD(List(1,3,5,7,9)...

2020-02-20 16:52:01 977

原创 Spark----RDD介绍

一、概念RDD(Resilient Distributed Datasets),弹性分布式数据集。特点是可以并行操作,并且是容错的。有两种方法可以创建RDD:1.执行Transform操作(变换操作);2.读取外部存储系统的数据集,如:HDFS、HBase,或者任何与Hadoop相关的数据源。二、入门实例案例一://scala 语言val data = Array(1,2,3,4,5...

2020-02-20 15:51:56 143

原创 Spark简介

一、spark介绍Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的,后贡献给Apache。是一种快速、通用、可扩展的大数据分析引擎。它是不断壮大的大数据分析解决方案家族中备受关注的明星成员,为分布式数据集的处理提供了一个有效框架,并以高效的方式处理分布式数据集。Spark集批处理、实时流处理、交互式查询、机器学习与图计算于一体,避免了多种运算场景下...

2020-02-17 17:58:37 497

原创 大数据概念

2020-02-13 16:13:41 249

原创 数据仓库和数据仓库分层

一、数据仓库概念数据仓库(Data Warehouse),可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。二、数仓分层的意义1、问题简单化,将一个复杂的问题分割成多步简单问题的集合,按步骤解决问题;2、数据结构清晰...

2020-02-13 15:54:20 1031

原创 笔记-----Python装饰器

装饰器,见名知意,就是在执行原有的代码块时,在其之前或之后加上一些额外的处理,但是不修改原有的代码块。装饰器可以做到在不修改原有的基础上为其做处理,有点相当于Java中面向切面思想一样。代码示例def outer(func): def inner(*args,**kwargs): print('饭前要有甜点!!给我一杯香草味的冰激凌!') #原有函数前加装饰 ...

2020-02-12 10:42:45 88

原创 笔记----python的self

自我理解:我认为 self 是你对一个类进行实例化后,从而产生的类对象。它并不是代表的类本身,而是实例化后的类对象!类本身的属性他是没有值的,但是,类对象的属性是有值的,这个值就是你进行类实例化时传入的实参。所以你可以用self调用你在类中写的函数和属性。代码实例:class Person: # def __init__(self): # print('这是相当于无...

2020-02-11 16:53:39 123

原创 笔记----Python可变参数总结

可变位置参数可变位置参数,格式:*标识符,代表你输入的实参是一个一个的,是你按照你想输入的参数的顺序输入的,后台会将你输入的参数封装为一个tuple元组(不可变);可变关键字参数可变关键字参数,格式:**标识符,代表你输入的实参是带上解释的。例如:age=‘man’,而不是只传入一个‘man’,后台会将你传入的参数封装为一个dict字典(可变);代码示例#参数一:普通参数;参数二:可...

2020-02-09 16:44:23 128

原创 笔记-----Python的Set集合求交集、并集、差集

#s1和s2是两个set集合,求交并差集s1={1,2,3,4,5,6,7}s2={3,4,5,6,7,8,9}print(s1&s2)#交集 {3, 4, 5, 6, 7}print(s1|s2)#并集 {1, 2, 3, 4, 5, 6, 7, 8, 9}print(s1^s2)#差集 {1, 2, 8, 9}...

2020-02-09 15:49:42 1950

原创 笔记----Python形参缺省值

#形参定义缺省值:代表如果传入的参数没有满足所有的形参,则在输出时会输出形参事先定义好的缺省值。def login(ip='127.0.0.1',host='8080',usename='root',password='root'): print('{}:{}@{}/{}'.format(ip,host,usename,password))login() #127.0.0.1:80...

2020-02-09 15:45:41 377

原创 笔记---Python可变参数

Python可变参数#函数的形参表示的标识符可以是任意符合标识符规则的,可变参数不加 * 的函数传参相当于把一个数/list/迭代器/set等对象传入,然后在函数内部遍历#可变参数不加*,需要传入的实参是一个整体,或者是一个对象def sum(iterable1): result = 0 for i in iterable1: result += i ...

2020-02-09 15:31:38 116

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除