spark
吃了点饭
浪客剑心。
展开
-
Spark面试问题
欢迎提出宝贵意见!!!原创 2017-08-24 20:17:22 · 1344 阅读 · 0 评论 -
spark算法
Spark中常用的算法:3.2.1 分类算法分类算法属于监督式学习,使用类标签已知的样本建立一个分类函数或分类模型,应用分类模型,能把数据库中的类标签未知的数据进行归类。分类在数据挖掘中是一项重要的任务,目前在商业上应用最多,常见的典型应用场景有流失预测、精确营销、客户获取、个性偏好等。MLlib 目前支持分类算法有:逻辑回归、支持向量机、朴素贝叶斯和决策树转载 2017-08-22 15:44:15 · 574 阅读 · 0 评论 -
深挖spark2.0
大数据通常自上而下分为大数据产品、数据治理/作业生命周期、作业管理/作业流、分布式计算、分布式存储、分布式调度、硬件/机房七层。本次演讲的重点在于分布式计算层。在以时间、数据量的坐标抽上列出目前引擎大致擅长处理数据的坐标,应该还需要加上数据复杂度、成本等维度,才能更好的体现侧重点,这里不列出。没有哪个软件能解决所有的问题,能解决问题也是在一个范围内,即使是spark、flink等。目前存在原创 2017-11-13 10:26:24 · 262 阅读 · 0 评论 -
sparksql性能调优
sparksql性能调优性能优化参数 在spark中,Spark SQL性能调优只要是通过下面的一些选项进行优化的:1 spark.sql.codegen 默认值为false,当它设置为true时,Spark SQL会把每条查询的语句在运行时编译为java的二进制代码。这有什么作用呢?它可以提高大型查询的性能,但是如果进行小规模的查询的时候反而会变慢转载 2017-11-20 10:22:08 · 3064 阅读 · 0 评论 -
Structured-Streaming+kafka流式处理
Maven项目配置spark Structured Streaming+kafka 结构化数据流中的关键思想是将实时数据流视为一个不断附加的表。这导致新的流处理模型与批处理模型非常相似。您将把流式计算表示为标准批量查询,就像在静态表上一样,Spark将它作为无界输入表上的增量查询来运行。让我们更详细地了解这个模型。基本概念将输入数据流视为“输入表”。每个到达流中的数据项就像一个新的行被添加到输入表...原创 2018-04-20 14:39:56 · 1818 阅读 · 0 评论