2020年11月_蜂蜜柚子加苦茶

原创大数据——基于Spark GraphX的图形数据分析

基于Spark GraphX的图形数据分析为什么需要图计算图（Graph）的基本概念图的术语（一）图的术语（二）图的术语（三）图的术语（四）图的经典表示法Spark GraphX简介GraphX核心抽象GraphX API示例属性图应用示例（一）属性图应用示例（二）查看图信息示例为什么需要图计算许多大数据以大规模图或网络的形式呈现许多非图结果的大数据，常会被转换为图模型进行分析图数据结构很好地表达了数据之间的关联性图（Graph）的基本概念图是由顶点集合（vertex）及顶点间的关系集合（边ed

2020-11-27 08:55:24 709

原创大数据——GraphX之Pregel算法原理及Spark实现

GraphX之Pregel算法原理及Spark实现Pregel案例：求顶点5到其他各点的最短距离Pregel原理分析Pregel源码 def pregel[A: ClassTag]( initialMsg: A, maxIterations: Int = Int.MaxValue, activeDirection: EdgeDirection = EdgeDirection.Either)( vprog: (VertexId, VD, A) =&g

2020-11-27 08:52:43 924

原创大数据——GraphX之Connected Components算法及Spark实现

GraphX之Connected Components算法及Spark实现Connected ComponentsDemo扩展Connected Components源码Compute the connected component membership of each vertex and return a graph with the vertex value containing the lowest vertex id in the connected component containing

2020-11-26 18:45:20 791

原创大数据——GraphX之PageRank算法原理及Spark实现

GraphX之PageRank算法原理及Spark实现什么是PageRank简单PageRank算法终止问题陷阱问题完整PageRank算法Spark实现RageRankSpark GraphX 图算法：PageRank什么是PageRankPageRank对网页排名的算法，曾是Google发家致富的法宝，PageRank算法计算每一个网页的PageRank值，然后根据这个值的大小对网页的重要性进行排序。简单PageRank算法首先，将Web做如下抽象：将每个网页抽象成一个节点如果一个页面A有

2020-11-26 17:01:08 861

原创大数据——Spark数据分析及处理即普通Json文件分析

Spark数据分析及处理使用Spark完成日志分析项目需求数据清洗项目所需文件使用Spark完成日志分析项目需求日志数据清洗用户留存分析活跃用户分析活跃用户地域信息分析用户浏览深度分析数据清洗读入日志文件并转化为RDD[Row]类型按照Tab切割数据过滤掉字段数量少于8个的对数据进行清洗按照第一列和第二列对数据进行去重过滤掉状态码非200过滤掉event_time为空的数据将url按照“&”以及“=”切割保存数据将数据写入mysql表中日志拆分字

2020-11-25 09:53:06 513

原创大数据——Spark高级操作之Json复杂和嵌套数据结构的操作及进行Json文件的数据清洗

Spark高级操作之Json复杂和嵌套数据结构的操作Json数据结构操作Json数据结构操作本文主要讲spark2.0版本以后存在的Sparksql的一些实用的函数，帮助解决复杂嵌套的json数据格式，比如，map和嵌套结构。Spark2.1在spark 的Structured Streaming也可以使用这些功能函数。下面几个是本文重点要讲的方法。A),get_json_object()B),from_json()C),to_json()D),explode()E),selectExpr(

2020-11-25 09:45:07 570

原创大数据——Spark SQL精华及与Hive的集成

Spark SQL精华及与Hive的集成SQL on HadoopSpark SQL前身Spark SQL架构Spark SQL运行原理Catalyst优化器（一）Catalyst优化器（二）Catalyst优化器（三）Spark SQL API（一）Spark SQL API（二）Spark SQL API（三）Spark SQL API（四）Spark SQL API（五）Spark SQL API（六）Spark SQL API（七）Spark SQL API（八）Spark SQL API（九）S

2020-11-18 11:03:05 365

原创大数据——Spark写MySQL五十道练习题

Spark写SQL五十道练习题表名和字段信息建表SQL练习题1、查询"01"课程比"02"课程成绩高的学生的信息及课程分数表名和字段信息学生表Students_id：学号s_name：姓名s_birth：出生日期s_sex：性别课程表Coursec_id：课程编号c_name：课程名称t_id：教师编号教师表Teachert_id：教师编号t_name：教师姓名成绩表Scores_id：学生编号c_id：课程编号s_score：份数建表

2020-11-18 10:47:15 799

原创大数据——Spark-SQL自定义函数UDF、UDAF、UDTF

Spark-SQL自定义函数UDF、UDAF、UDTF自定义函数分类UDFUDAFUDTF自定义函数分类类似有Hive当中的自定义函数，Spark同样可以使用自定义的函数来实现新的功能Spark中的自定义函数有三类：UDF（User-Defined-Function）输入一行，输出一行UDAF（User-Defined Aggregation Function）输入多行，输出一行UDTF（User-Defined Table-Generating Functions）

2020-11-17 19:18:56 802

原创大数据——Apache Spark分布式计算原理

Apache Spark分布式计算原理Spark WordCount运行原理RDD的依赖关系（一）RDD的依赖关系（二）判断RDD依赖关系DAG工作原理为什么需要划分StageSpark Shuffle过程RDD优化RDD持久化（一）示例RDD持久化（二）RDD持久化（三）示例RDD共享变量（一）示例RDD共享变量（二）示例RDD分区设计数据倾斜装载CSV数据源装载JSON数据源基于RDD的Spark应用程序开发（一）基于RDD的Spark应用程序开发（二）Spark WordCount运行原理RDD

2020-11-12 20:11:33 261

原创大数据——Spark RDD算子（十三）RDD分区HashPartitioner、RangePartitioner、自定义分区

Spark RDD算子（十三）RDD分区HashPartitioner、RangePartitioner、自定义分区HashPartitionerRangePartitioner自定义分区HashPartitioner默认分区就是HashPartitionerpackage nj.zb.sparkstuimport org.apache.spark.rdd.RDDimport org.apache.spark.{HashPartitioner, SparkConf, SparkContext

2020-11-12 17:31:11 274

原创大数据——Spark RDD算子（十二）RDD分区操作mapPartitions、mapPartitionsWithIndex

Spark RDD算子（十二）RDD分区操作mapPartitions、mapPartitionsWithIndexmapPartitions把每一个元素变成map(i,i*i)Scala版本Java版本把(i,j) 变成(i,j*j)Scala版本Java版本把每一个元素平方Java版本mapPartitionsWithIndex统计各个分区中的元素Scala版本Java版本mapPartitionsmapPartitions可以倒过来理解，先partition，再把每个partition进行map

2020-11-12 16:24:10 499

原创大数据——Spark RDD算子（十一）保存操作saveAsTextFile、saveAsSequenceFile、saveAsObjectFile、saveAsHadoopFile

Spark RDD算子（十一）保存操作saveAsTextFile、saveAsSequenceFile、saveAsObjectFile、saveAsHadoopFilesaveAsTextFileScala版本存储到文件系统中指定压缩格式保存saveAsSequenceFilesaveAsObjectFileScala版本saveAsTextFiledef saveAsTextFile(path: String): Unitdef saveAsTextFile(path: String, cod

2020-11-12 14:22:05 5531 6

原创大数据——Spark RDD算子（十）PairRDD的Action（动作）算子countByKey、collectAsMap

Spark RDD算子（十）PairRDD的Action（动作）算子countByKey、collectAsMapcountBykeyScala版本Java版本colleactAsMapScala版本Java版本countBykeydef countByKey(): Map[K, Long]统计出现相同key的次数Scala版本package nj.zb.sparkstuimport org.apache.spark.rdd.RDDimport org.apache.spark.{Sp

2020-11-11 19:20:36 216

原创大数据——Spark RDD算子（九）基本的Action（动作）算子first、take、collect、count、countByValue、reduce、aggregate、fold、top

Spark RDD算子（九）基本的Action（行动）算子first、take、collect、count、countByValue、reduce、aggregate、fold、topfirstScala版本Java版本takeScala版本Java版本collectScala版本first返回第一个元素Scala版本package nj.zb.sparkstuimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf

2020-11-11 14:32:25 549

原创大数据——Spark RDD算子（八）键值对关联操作subtractByKey、join、fullOuterJoin、rightOuterJoin、leftOuterJoin

Spark RDD算子（八）键值对关联操作subtractByKey、join、fullOuterJoin、rightOuterJoin、leftOuterJoinsubtractByKeyScala版本Java版本joinScala版本Java版本fullOuterJoinScala版本Java版本leftOuterJoinScala版本Java版本rightOuterJoinScala版本Java版本subtractByKey函数定义def subtractByKey[W](other: RD

2020-11-09 19:20:21 281

原创大数据——Spark RDD算子（七）键值对分组操作groupByKey、cogroup

Spark RDD算子（七）键值对分组操作groupByKey、cogroupgroupByKeyScala版本Java版本cogroupScala版本Java版本groupByKeydef groupByKey(): RDD[(K, Iterable[V])]def groupByKey(numPartitions: Int): RDD[(K, Iterable[V])]def groupByKey(partitioner: Partitioner): RDD[(K, Iterable[V])

2020-11-09 17:00:04 487

原创大数据——Spark RDD算子（六）键值对聚合和排序操作reduceByKey、foldByKey、sortByKey

Spark RDD算子（六）键值对聚合和排序操作reduceByKey、foldByKey、sortByKeyreduceByKeyScala版本示例一示例二Java版本foldByKeyScala版本reduceByKeydef reduceByKey(func: (V, V) => V): RDD[(K, V)]def reduceByKey(func: (V, V) => V, numPartitions: Int): RDD[(K, V)]def reduceByKey(pa

2020-11-09 15:50:18 399

原创大数据——Spark RDD算子（五）键值对聚合操作combineByKey

Spark RDD算子（五）键值对聚合操作combineByKeycombineByKey简要介绍combineByKey聚合数据一般在集中式数据比较方便，如果涉及到分布式的数据，就比较繁琐了。这里介绍一下combineByKey，是各种聚合操作的鼻祖简要介绍def combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) => C,

2020-11-07 16:41:51 403

原创大数据——Spark RDD算子（四）创建键值对RDD mapToPair、flatMapToPair

大数据——Spark RDD算子（四）创建键值对RDD mapToPair、flatMapToPair示例文件mapToPairScala版本Java版本flatMapToPairScala版本Java版本，Spark2.0以上示例文件在同级目录下有一个文件夹in，文件夹in下有一个sample.txt，内容如下aa bb cc aa aa aa dd dd ee ee ee eeff aa bb zksee kksee zz zksmapToPairScala版本Scala中是

2020-11-05 20:09:05 454

原创大数据——Spark RDD算子（三）distinct、union、intersection、subtract、cartesian

大数据——Spark RDD算子（三）distinct、union、intersection、subtract、cartesiandistinctScala版本Java版本unionScala版本Java版本intersectionScala版本Java版本subtractScala版本Java版本cartesianScala版本Java版本distinctdistinct用于去重，生成的RDD可能有重复的元素，使用distinct方法可以去除重复的元素，不过此方法涉及混洗，操作开销很大Scala

2020-11-05 19:28:29 582

原创大数据——Spark RDD算子（二）filter、map、flatMap

大数据——Spark RDD算子（二）filter、map、flatMap示例文件filterScala版本Java版本mapScala版本Java版本flatMapScala版本Java版本，Spark2.0以上示例文件在同级目录下有一个文件夹in，文件夹in下有一个sample.txt，内容如下aa bb cc aa aa aa dd dd ee ee ee eeff aa bb zksee kksee zz zksfilterfilter()接收一个函数，把这个函数用于RDD

2020-11-05 18:53:24 454

原创大数据——Spark RDD算子（一）parallelize、makeRDD、textFile

大数据——Spark RDD算子（一）parallelize、makeRDD、textFileParallelizeScala版本Java版本ParallelizeScala版本def parallelize[T](seq: Seq[T], numSlices: Int = defaultParallelism)(implicit arg0: ClassTag[T]): RDD[T]第一个参数是一个Seq集合第二个参数是分区数返回的是RDD[T]scala> sc.parallel

2020-11-05 16:15:59 751

原创大数据——Apache Spark基础及架构

Apache Spark基础及架构为什么使用SparkSpark简介Spark优势Spark技术栈Spark环境部署Spark初体验Spark架构设计Spark架构核心组件Spark API（一）Spark API（二）示例：使用IDEA初始化Spark运行环境具体步骤实施Spark API（三）Spark RDD概念（一）Spark RDD概念（二）RDD与DAGRDD的特性RDD编程流程RDD的创建（一）RDD的创建（二）RDD的创建（三）RDD的创建（四）RDD创建方式的最佳实战RDD分区RDD操作R

2020-11-04 14:55:02 366

原创大数据——Scala连接MySQL数据库

Scala连接MySQL数据库添加MySQL连接驱动到项目中连接添加MySQL连接驱动到项目中点击IDEA的File下的Project Structure选择Libraries，点击+，选择Java导入MySQL驱动jar包连接这边使用的版本是mysql-connector-java-5.1.38编写jdbc程序连接至数据库，实现增加数据和查询数据的功能代码展示package nj.zb.kb09.mysqlstuimport java.sql.{Connection

2020-11-01 15:29:26 837

蜂蜜柚子加苦茶