spark
文章平均质量分 93
飄落
这个作者很懒,什么都没留下…
展开
-
Spark实现流式实时日志分析系统
实验介绍我们知道对于一个网站的用户访问流量是不间断的,基于网站的访问日志,即WEB LOG的分析是经典的流式实时计算应用场景。比如百度统计,它可以做流量分析、来源分析、网站分析、转化分析。另外还有特定场景分析,比如安全分析,用来识别 CC 攻击、 SQL 注入分析、脱库等。这里我们简单实现一个类似于百度分析的系统。课程来源这里的课程来自于【实验楼课程】:流式实时日志分析系统——《Spa...转载 2018-10-31 17:53:12 · 3018 阅读 · 0 评论 -
Spark 2.1.0 入门:协同过滤算法
一、方法简介 协同过滤是一种基于一组兴趣相同的用户或项目进行的推荐,它根据邻居用户(与目标用户兴趣相似的用户)的偏好信息产生对目标用户的推荐列表。关于协同过滤的一个经典的例子就是看电影。如果你不知道哪一部电影是自己喜欢的或者评分比较高的,那么通常的做法就是问问周围的朋友,看看最近有什么好的电影推荐。而在问的时候,肯定都习惯于问跟自己口味差不多的朋友,这就是协同过滤的核心思想。因此,协同过...原创 2019-01-19 10:34:13 · 447 阅读 · 0 评论 -
Spark Streaming性能调优详解
SparkStreaming提供了高效便捷的流式处理模式,但是在有些场景下,使用默认的配置达不到最优,甚至无法实时处理来自外部的数据,这时候我们就需要对默认的配置进行相关的修改。由于现实中场景和数据量不一样,所以我们无法设置一些通用的配置(要不然SparkStreaming开发者就不会弄那么多参数,直接写死不得了),我们需要根据数据量,场景的不同设置不一样的配置,这里只是给出建议,这些调优不...原创 2019-03-09 19:25:03 · 155 阅读 · 0 评论 -
spark2.2 DataFrame的一些算子操作
SparkSession中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。可以参考,Scala提供的DataFrame API。本文将使用SparkSession进行操作。一、DataFrame对象的生成val ss = SparkSession.builder() .ap...原创 2019-04-29 18:29:20 · 565 阅读 · 0 评论 -
Spark:JavaRDD 转化为 Dataset<Row>的两种方案 JavaRDD 转化为 Dataset<Row>方案一:
JavaRDD 转化为 Dataset方案一:实体类作为schema定义规范,使用反射,实现JavaRDD转化为DatasetStudent.java实体类:复制代码import java.io.Serializable;@SuppressWarnings(“serial”)public class Student implements Serializable {private S...转载 2019-04-30 08:29:48 · 2029 阅读 · 0 评论