![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
小龙在山东
本博客为个人整理的技术笔记,仅用于学习。
展开
-
Hadoop词频统计
Hadoop MapReduce 的出现,使得大数据计算通用编程成为可能。现在从头到尾布置一下环境。安装JAVA开发版JDK不要安装openjdk的jre,那个不全。yum install java-1.7.0-openjdk-devel -y配置环境变量export JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.201-2.6.16....原创 2019-01-22 11:46:34 · 1576 阅读 · 5 评论 -
DataFrame的数据处理算子
同源类算子算子用途算子数据转换map/mapPartitions/flatMap/filter数据聚合groupByKey/reduce数据准备union/sample数据预处理repartition/coalesce结构收集first/take/collect探索类算子初步了解并认识数据,如数据模式Schema、数据分布等。算子用途算子查看数据模式columns/schema/printSchema查看数据sh原创 2022-05-04 22:26:42 · 1261 阅读 · 0 评论 -
以集团公司为例理解Spark主要概念
Spark概念类比公司主要职责Spark斯巴克集团服务对象:建筑设计师,把用户提供的代码转化为设计图纸Driver集团总公司DAGScheduler戴格 集团架构师空降兵,熟悉图纸,解读图纸并立项TaskScheduler塔斯克 集团项目经理公司元老,控制工程项目Schedulerackend拜肯德 集团HR公司元老,人力资源Executors分公司ExecutorBackend工头RDD算子施工步骤RDD...原创 2022-05-04 12:48:11 · 766 阅读 · 0 评论 -
从CSV创建DataFrame
示例CSV内容name,agealice,18bob,14cassie, sixscala代码import org.apache.spark.sql.DataFrameimport org.apache.spark.sql.types.{StringType, IntegerType, StructField, StructType}// 定义schemaval schema:StructType = StructType( Array(StructField("name", St原创 2022-05-03 23:51:06 · 1018 阅读 · 1 评论 -
RDD自动转DataFrame
手动配置schameimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.types.{StringType, IntegerType, StructField, StructType}import org.apache.spark.sql.Rowimport org.apache.spark.sql.DataFrame// 定义列表数据 seqval seq: Seq[(String, Int)] = Seq(("Bob", 1原创 2022-05-03 23:14:58 · 345 阅读 · 0 评论 -
Spark集群配置
配置SSH# Masterssh-keygen -t rsacat /home/kali/.ssh/id_rsa.pub# Workermkdir ~/.sshchmod 700 ~/.sshtouch ~/.ssh/authorized_keyschmod 600 ~/.ssh/authorized_keysvi ~/.ssh/authorized_keys安装 OpenJDK 11环境Ubuntu 16# Add the repositorysudo add-apt-rep原创 2022-05-03 00:35:48 · 1505 阅读 · 0 评论 -
SBT安装和基本使用
SBT(Simple Build Tool)是scala的构建工具,需要Java1.8+版本。安装包安装首先要安装JRE http://blog.csdn.net/lilongsy/article/details/77452317然后下载SBT,并解压。 https://github.com/sbt/sbt/releases/tag/v1.0.0wget https://github.com/s原创 2017-08-23 11:42:24 · 1321 阅读 · 0 评论 -
Spark统计词汇量/排行榜/中位数
简介使用python调用spark的api接口很方便,代码简洁。 首先要安装python、pip、pyspark。pip install pyspark数据格式words.txtword1word2word3...统计词汇量workdcount.py# -*- coding:utf-8 -*-from pyspark import SparkConf, SparkContextconf =原创 2017-09-06 09:29:54 · 2145 阅读 · 0 评论 -
Spark获取并分析Mysql数据
安装环境Java环境安装并启动Spark下载并解压Sparkwget https://d3kbcqa49mib13.cloudfront.net/spark-2.2.0-bin-hadoop2.7.tgztar xzvf spark-2.2.0-bin-hadoop2.7.tgz /usr/localcd /usr/localln -s spark spark-2.2.0-bin-hadoop原创 2017-08-31 18:11:23 · 1889 阅读 · 0 评论