自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 spark学习笔记6

pyspark.sql.DataFrame对象的方法aggr=sparkdf.agg({"a":"max","b":"min"}) #对列的聚合操作print aggr.collect()print sparkdf.approxQuantile('a',[0.25,0.5,0.75],0) #对某列求分位数,只是近似值print sparkdf.colRegex("\w+") #spar...

2018-04-16 10:42:54 1818

原创 spark学习笔记5

1.pyspark读取各种数据源通过pyspark.sql.DataFrameReader对象的各种方法可以读取各种数据源先创建个SparkSessionspark = SparkSession.builder \ .master("local") \ .appName("Word Count") \ .config("mysqlusername", "alarm") \...

2018-04-13 18:34:53 131

原创 spark学习笔记4

一、spark2.0+ 版本只用spark.sql的SparkSession就可以代替之前的SparkContext、SQLContext等。SparkSession的建立:spark = SparkSession.builder \ .master("local") \ .appName("Word Count") \ .config("mysqlusername", "...

2018-04-12 18:16:23 150

原创 图论学习笔记3

最短路径算法1.Dijkstra算法顶点:1,2,3,4,5,6D=[[0,7,9,inf,inf,14],      [7,0,10,15,inf,inf],      [9,10,0,11,inf,2],      [inf,15,11,0,6,inf],      [inf,inf,inf,6,0,9],      [14,inf,2,inf,9,0]] #inf表示正无穷求1到5最短距离1...

2018-04-11 18:29:33 299

原创 图论学习笔记2

一、图的表示1.邻接表假设顶点有1,2,3,4,5G=[[2,3], #1的邻接表      [4,3,5], #2的邻接表      [1,4], #3的邻接表      [3], #4的邻接表      [1,3]] #5的邻接表邻接表可以是list,set(集合),dict,如果是dict,则可以表示权重了2.邻接矩阵a, b, c, d, e, f, g, h = range(8)N = ...

2018-04-11 15:34:20 264

原创 图论学习笔记1

1.基本概念图(graph)顶点(vertex)边(edge)同构(Isomorphism )不改变顶点代表的事物本身,不改变顶点之间的逻辑关系有向图(Directed Graph)边有方向,可单、双向无向图( Undirected Graph)权重(weight)边的权重,可表示距离等路径(path)不会重复经过同一个点和同一条边的路线最短路径(shortest path)环(loop)连通图(...

2018-04-11 14:09:49 473

原创 spark学习笔记3

一、pycharm开发spark程序配置方法:在C:\Anaconda\Lib\site-packages目录下新建pyspark.pth,内容是D:\hadoop_spark\spark-2.0.2-bin-hadoop2.7\python 即spark目录下的的python目录,也就是spark的python API.其实就是将pyspark当做一个普通的python包对待而已,没有做其他的配...

2018-04-09 09:57:43 180

原创 spark学习笔记2

(pyspark)sc.parallelize([1,2,3,4,5,6])创建出一个可以被并行操作的分布式数据集mapPartitions(func) func应用于RDD的每个分区上,所以func的输入是一个block>>> def squareFunc(a):. . .     for i in a:. . .         yield i*i. . .>>&...

2018-04-04 18:06:44 272

原创 spark学习笔记1

pyspark命令练习:textFile = sc.textFile(“README.md”)创建一个RDDtextFile.count()返回元素个数textFile.first()返回第一个元素linesWithSpark = textFile.filter(lambda line: “Spark” in line)过滤元素textFile.filter(lambda line: “Spark...

2018-04-04 11:13:16 469

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除