2018年04月_rona1

原创 spark学习笔记6

pyspark.sql.DataFrame对象的方法aggr=sparkdf.agg({"a":"max","b":"min"}) #对列的聚合操作print aggr.collect()print sparkdf.approxQuantile('a',[0.25,0.5,0.75],0) #对某列求分位数，只是近似值print sparkdf.colRegex("\w+") #spar...

2018-04-16 10:42:54 1818

原创 spark学习笔记5

1.pyspark读取各种数据源通过pyspark.sql.DataFrameReader对象的各种方法可以读取各种数据源先创建个SparkSessionspark = SparkSession.builder \ .master("local") \ .appName("Word Count") \ .config("mysqlusername", "alarm") \...

2018-04-13 18:34:53 131

原创 spark学习笔记4

一、spark2.0+ 版本只用spark.sql的SparkSession就可以代替之前的SparkContext、SQLContext等。SparkSession的建立：spark = SparkSession.builder \ .master("local") \ .appName("Word Count") \ .config("mysqlusername", "...

2018-04-12 18:16:23 151

原创图论学习笔记3

最短路径算法1.Dijkstra算法顶点：1,2,3,4,5,6D=[[0,7,9,inf,inf,14], [7,0,10,15,inf,inf], [9,10,0,11,inf,2], [inf,15,11,0,6,inf], [inf,inf,inf,6,0,9], [14,inf,2,inf,9,0]] #inf表示正无穷求1到5最短距离1...

2018-04-11 18:29:33 300

原创图论学习笔记2

一、图的表示1.邻接表假设顶点有1,2,3,4,5G=[[2,3], #1的邻接表 [4,3,5], #2的邻接表 [1,4], #3的邻接表 [3], #4的邻接表 [1,3]] #5的邻接表邻接表可以是list，set（集合），dict，如果是dict，则可以表示权重了2.邻接矩阵a, b, c, d, e, f, g, h = range(8)N = ...

2018-04-11 15:34:20 265

1.基本概念图（graph）顶点（vertex）边（edge）同构（Isomorphism ）不改变顶点代表的事物本身，不改变顶点之间的逻辑关系有向图（Directed Graph）边有方向，可单、双向无向图（ Undirected Graph）权重（weight）边的权重，可表示距离等路径（path）不会重复经过同一个点和同一条边的路线最短路径（shortest path）环（loop）连通图（...

2018-04-11 14:09:49 477

原创 spark学习笔记3

一、pycharm开发spark程序配置方法：在C:\Anaconda\Lib\site-packages目录下新建pyspark.pth，内容是D:\hadoop_spark\spark-2.0.2-bin-hadoop2.7\python 即spark目录下的的python目录，也就是spark的python API.其实就是将pyspark当做一个普通的python包对待而已，没有做其他的配...

2018-04-09 09:57:43 181

原创 spark学习笔记2

（pyspark）sc.parallelize([1,2,3,4,5,6])创建出一个可以被并行操作的分布式数据集mapPartitions(func) func应用于RDD的每个分区上，所以func的输入是一个block>>> def squareFunc(a):. . . for i in a:. . . yield i*i. . .>>&...

2018-04-04 18:06:44 273

原创 spark学习笔记1

pyspark命令练习：textFile = sc.textFile(“README.md”)创建一个RDDtextFile.count()返回元素个数textFile.first()返回第一个元素linesWithSpark = textFile.filter(lambda line: “Spark” in line)过滤元素textFile.filter(lambda line: “Spark...

2018-04-04 11:13:16 469

rona1的博客