大数据
文章平均质量分 90
简之
这个作者很懒,什么都没留下…
展开
-
Hadoop FS常用命令
Hadoop FS常用命令原创 2018-07-28 18:04:30 · 19593 阅读 · 1 评论 -
常用的窗口函数
1、什么是窗口函数含义:窗口函数也叫OLAP函数(Online Anallytical Processing,联机分析处理),可以对数据进行实时分析处理。作用:解决排名问题,e.g.每个班级按成绩排名解决TOPN问题,e.g.每个班级前两名的学生语法:select 窗口函数 over (partition by 用于分组的列名, order by 用于排序的列名分类:排名函数:row_number(),rank(),dense_rank()聚合函数:max(),min(),count原创 2021-07-11 12:43:03 · 21246 阅读 · 2 评论 -
『pyspark』三:RDD数据处理
1、使用Pyspark1.1 Linking with Sparkfrom pyspark import SparkContext, SparkConf1.2 Initializing Sparkconf = SparkConf().setAppName(appName).setMaster(master)sc = SparkContext(conf=conf)2、RDD2.1 读取数据2.1.1 parallelizerdd = sc.parallelize([('Amber', 2原创 2021-06-27 17:27:09 · 2535 阅读 · 1 评论 -
『pyspark』〇:spark的安装、配置和使用
PySpark安装、配置和使用原创 2021-06-26 15:36:47 · 3581 阅读 · 0 评论 -
『pyspark』二:RDD基础
Spark计算框架为了能够进行高并发和高吞吐的数据处理,封装了三大数据结构,用于处理不同的应用场景。三大数据结构分别是:RDD : 弹性分布式数据集累加器:分布式共享只写变量广播变量:分布式共享只读变量1、什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。RDD是最小的计算单元:为什么RDD是最小的计算单元?因为实际原创 2021-06-20 19:41:16 · 199 阅读 · 0 评论 -
『pyspark』一:spark基础
1、简介1.1 spark VS hadoopspark和hadoop的根本差异是多个作业之间的数据通信问题:spark多个作业之间数据通信是基于内存,而hadoop是基于磁盘。1.2 核心模块spark core:提供spark最基础与最核心的功能spark SQL:spark用来操作结构化数据的组件,可以使用SQL来查询数据spark Streaming:spark平台上针对实时数据进行流式计算的组件,提供了丰富的处理数据流的APIspark MLlib:机器学习算法库spark Gr原创 2021-06-20 17:54:45 · 262 阅读 · 1 评论 -
Spark SQL函数
Spark SQL函数原创 2018-10-23 14:35:36 · 5064 阅读 · 2 评论 -
Spark:coalesce()方法和repartition()方法
coalesce()方法和repartition()方法1、coalesce()方法def coalesce(numPartitions: Int, shuffle: Boolean = false)(implicit ord: Ordering[T] = null) : RDD[T] = withScope { if (shuffle) { } else { }}...原创 2018-09-21 23:58:38 · 3760 阅读 · 0 评论 -
Spark DataFrame常用操作
Spark DataFrame常用操作工作中经常用到Spark SQL和Spark DataFrame,但是官方文档DataFrame API只有接口函数,没有实例,新手用起来不太方便。下面这篇博客总结的很好,基本常用的API都有讲解,而且都有示例,平时使用的时候经常查看,很方便。Spark-SQL之DataFrame操作大全下面是其中没有包含的内容,工作中比较常用,总结在这里:1、正则匹...原创 2018-09-21 23:03:39 · 10290 阅读 · 0 评论 -
集群 & 服务器操作常用命令
集群 & 服务器操作常用命令:1、跨服务器操作:两台机器IP分别为:A.104.238.161.75 \quad B.43.224.34.73在A服务器上操作,将B服务器上/home/lk/目录下所有的文件全部复制到本地的/root目录下,命令为:scp -r root@43.224.34.73:/home/lk /root在A服务器上将/root/lk目录下所有的文件传输到...原创 2018-09-21 21:06:35 · 1907 阅读 · 0 评论 -
Spark SQL原理与应用
Spark SQL原理与应用原创 2018-08-12 13:48:24 · 3047 阅读 · 2 评论 -
MapReduce工作原理
一、MapReduce完整运行流程解析:1、在客户端启动一个作业。2、向JobTracker请求一个Job ID。3、将运行作业所需要的资源文件复制到HDFS上,包括MapReduce程序打包的jar文件、配置文件和客户端计算所得的计算划分信息。这些文件都存放在JobTracker专门为该作业创建的文件夹中。文件夹名为该作业的Job ID。jar文件默认会有10个副本(ma...转载 2018-09-05 23:15:48 · 291 阅读 · 0 评论 -
Spark数据分析基础
spark大数据分析基础1、spark简介1.1 Spark程序(1)驱动器程序 从上层来看,每个Spark应用都由一个驱动器程序(driver program)来发起集群上的各种并行操作。驱动器程序包含应用的main函数,并且定义了集群上的分布式数据集,还对这些分布式数据集应用了相关操作。在spark-shell中,实际的驱动器程序就是Spark shell本身,你只需要输入想要运...原创 2018-08-12 18:10:00 · 1141 阅读 · 0 评论