Spark入门
文章平均质量分 93
Spark入门系列
oifengo
爬梯之路
展开
-
Centos Maven 编译Spark
目录环境说明一 . 安装Maven1.1 下载1.2 解压1.3 权限1.4 配置环境变量二. 编译Spark(Maven)2.1 下载Spark2.2 解压2.3 编译环境说明Centos 7.8Maven 3.6.3Spark 3.0.1CDH 6.3.1一 . 安装Maven1.1 下载wget http://mirrors.tuna.tsinghua.edu.cn/apache/maven/maven-3/3.6.3/binaries/apache-maven-3.6.3-bin原创 2020-09-07 17:12:44 · 332 阅读 · 0 评论 -
电商用户行为分析大数据平台
简介对电商用户行为:访问行为购物行为广告点击进行复杂的分析 结果辅助PM 数据分析师 管理分析现有状况改进产品设计 调整公司战略业务提升业绩 营业额以及市场占有率提升技术简介业务模块用户访问session分析页面单跳转转化率统计热门商品离线统计广告流量实时统计技术Spark 离线计算和实时计算业务Spark CoreSpark SQLSpark...原创 2019-05-01 17:55:21 · 3841 阅读 · 0 评论 -
Spark入门3
JsonJson简介原创 2019-02-26 09:50:34 · 114 阅读 · 0 评论 -
Spark UDAF 翻译官方文档
1 官方文档Spark UDAF 官方文档1.1 定义User-Defined Aggregate Functions (UDAFs) are user-programmable routines that act on multiple rows at once and return a single aggregated value as a result. This documentation lists the classes that are required for creating an原创 2021-12-19 20:04:22 · 1236 阅读 · 0 评论 -
Spark入门项目Top10
文章目录数据说明需求1:Top10热门品类1.1 需求说明1.2 实现方案一数据说明//用户访问动作表case class UserVisitAction( date: String,//用户点击行为的日期 user_id: Long,//用户的ID session_id: String,//Session的ID page_id: Long,//某个页面的ID action_time: String,//动作的时间点 search_keyword: S原创 2020-10-24 14:33:52 · 1966 阅读 · 0 评论 -
Spark 实现WordCount的11种方式
文章目录基础环境1 groupBy2 groupByKey3 ReduceByKey4 aggregateByKey5 foldByKey6 combineByKey7 countByKey8 countByValue9 reduce10 fold11 aggreagre基础环境 // 创建Spark运行配置对象 val sparkConf = new SparkConf().setMaster("local[*]").setAppName("WordCount") // 创建Spark原创 2020-10-17 11:30:54 · 857 阅读 · 0 评论 -
Spark summer-framework
文章目录1.1 框架设计原理1.2 框架搭建1.2.1 Util1.2.2 core需求1:Top101.1 框架设计原理 框架设计思想可以采取两种模式,一种是MVC,另外一种是三层架构,由于我们这里没有页面展示的需求,所以我们暂时采取三层架构的方式。.三层架构的概念Controller:控制层,封装调度作用,数据的流转过程Service: 服务层,封装实际的计算逻辑DAO :Data Access Object,数据访问对象,专门用于和一些关系型数据互相访问,用来和数据源的连接原创 2020-10-11 18:20:50 · 399 阅读 · 0 评论 -
CDS开荒
文章目录一. 背景1.2 版本说明二. 安装准备2.1 描述文件一. 背景CDH本身自带Spark ,但是版本都很低1.6,生产中需要自行安装SparkCloudera官网对于CDS安装1.2 版本说明CDS 2.2 and higher require JDK 8 only. If you are using CD 2.2 or higher, you must remove JDK 7 from all cluster and gateway hosts to ensure proper原创 2020-09-18 22:20:12 · 993 阅读 · 0 评论 -
java.lang.NoSuchMethodError: com.fasterxml.jackson.core.JsonFactory.requiresPropertyOrdering()Z
故障描述Spark 直接跑在本机IDEA , 出现Exception in thread “main” java.lang.IllegalArgumentException: System memory 259522560 must be at least 471859200. Please increase heap size using the --driver-memory option or spark.driver.memory in Spark configuration.解决方案原创 2020-09-06 16:56:53 · 1212 阅读 · 0 评论 -
Spark入门2
回顾Spark是一个内存计算框架在MR基础上做一个扩展RDD resilient distributed datasettransformation:变换 lazy map() filteraction 动作 count first take(n)rdd.persist() 持久化rdd. cache() == rdd.persist();SparkContext : 到Spa...原创 2019-02-18 14:14:16 · 303 阅读 · 0 评论 -
Spark入门1
SparkContext类名org.apache.spark.SparkContextSpark上下文对象,是Spark程序的主入口点,负责连接到Spark cluster可用创建RDD ,在集群上创建累加器和广播变量每个jvm只能激活一个SparkContext对象,创建新的SparkContext对象时,必须stop原对象MapReducemap :splitRDD ...原创 2019-02-11 22:28:58 · 213 阅读 · 0 评论 -
Spark基于搜狗日志数据分析
针对搜狗实验室的语料数据-用户查询日志(网页搜索用户查询及点击记录)进行Spark数据分析。Data 简介搜索引擎查询日志库设计为包括约1个月(2008年6月)Sogou搜索引擎部分网页查询需求及用户点击情况的网页查询日志数据集合。为进行中文搜索引擎用户行为分析的研究者提供基准研究语料。格式说明:数据格式为访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\...原创 2019-01-06 17:42:55 · 2260 阅读 · 2 评论 -
Spark Core 操作
创建一个SparkContext对象初始化Spark Spark程序必须做的第一件事是创建一个SparkContext对象,该对象告诉Spark如何访问集群。要创建SparkContext,您首先需要构建一个包含有关应用程序信息的SparkConf对象。每个JVM只有一个SparkContext可能是活动的。 在创建新的SparkContext之前,必须先停止活动状态的SparkContext。...原创 2018-12-29 22:16:10 · 327 阅读 · 0 评论 -
Spark SQL操作
1.1.1.创建DataFrames在Spark SQL中SQLContext是创建DataFrames和执行SQL的入口,在spark-1.5.2中已经内置了一个sqlContext在本地创建一个文件,有三列,分别是id、name、age,用空格分隔,然后上传到hdfs上hdfs dfs -put person.txt /.在spark shell执行下面命令,读取数据,将每一行的...原创 2018-12-17 19:45:57 · 559 阅读 · 0 评论 -
Spark集群的安装与部署
1、将spark压缩包上传至其中一个节点2、解压tar -zxvf spark-1.3.1-bin-hadoop2.4.tgz3、将解压后的目录移动到/usr/目录下,并重命名为spark-1.3.1:mv spark-1.3.1-bin-hadoop2.4 /usr/spark-1.3.14、设置spark的环境变量vi /etc/profileexport SPARK_H...原创 2018-12-13 17:11:30 · 247 阅读 · 0 评论 -
Spark入门介绍
简介快如闪电的集群计算快速和通用的大规模数据处理技术再HDFS之上做数据处理,没有数据存储功能Speed执行mr作业程序在内存中比Hadoop快100倍,磁盘上快10倍Spark有着DAG(有向五环图)执行引擎,支持离散数据流和内存计算Easy of usejava scalapythonR提供80多种高级操作用于并行操作App,可以使用scala等脚本语言进行交互式...原创 2019-02-07 19:50:52 · 422 阅读 · 0 评论