spark
小小可凡
这个作者很懒,什么都没留下…
展开
-
spark 函数
https://spark.apache.org/docs/2.4.5/api/sql/index.html添加链接描述原创 2021-11-03 14:36:11 · 1255 阅读 · 0 评论 -
spark structured打通kafka与tablestore 的连接
spark 连接kafka数据sink到tablestore中直接上代码, 有不明白的可以留言pom<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven原创 2021-07-29 16:56:04 · 164 阅读 · 0 评论 -
spark streaming-sql tablestore统计数据
spark数据源为ots 或者叫tablestoreDROP TABLE IF EXISTS source;CREATE TABLE group_chat_source (targetId STRING,targetType LONG, sendTime LONG COMMENT "group_chat_source")USING tablestoreOPTIONS(endpoint='${source_endpoint}',access.key.id='${source_access_ke原创 2021-07-26 18:01:41 · 124 阅读 · 0 评论 -
spark tablestore数据读写
直接上代码: 内容自己看<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apa原创 2021-07-26 17:56:18 · 319 阅读 · 0 评论 -
pyspark window安装和初始化
今天开始搞pyspark为了方便以后少走弯路直接下载 hadoop2.7.1 spark选择2.x即可具体上一个博客! 注意可以先考率winutils.exe的版本在选择性下载请点击这里原创 2021-07-15 17:48:53 · 84 阅读 · 0 评论 -
pyspark报错 py4j.protocol.Py4JError: org.apache.spark.api.python.PythonUtils.isEncryptionEnabled does
在执行一个程序的时候conf = SparkConf().setAppName("miniProject").setMaster("local[1]")报错内容Traceback (most recent call last): File "D:/py_data/py_spark/demo_pyspark.py", line 9, in <module> sc = SparkContext.getOrCreate(conf) File "D:\py_data..原创 2021-07-15 17:44:56 · 1529 阅读 · 1 评论 -
spark 文档
这个是spark在线文档地址, 其中有涉及到使用java, Scala,和Python三种语言的开发:spark在线文档 地址如果英文看不懂的可以在google浏览器中安装一个翻译插件, 直接翻译成中文,欢迎关注!原创 2020-09-19 10:58:11 · 120 阅读 · 0 评论 -
Spark中RDD、DataFrame和DataSet的区别
RDD、DataFrame和DataSet的定义在开始Spark RDD与DataFrame与Dataset之间的比较之前,先让我们看一下Spark中的RDD,DataFrame和Datasets的定义:Spark RDDRDD代表弹性分布式数据集。它是记录的只读分区集合。 RDD是Spark的基本数据结构。它允许程序员以容错方式在大型集群上执行内存计算。Spark Dataframe与...原创 2020-03-30 16:23:43 · 272 阅读 · 0 评论 -
spark优化
Spark的开发优化1.Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中,时时刻刻都应该注意以上原则,并将这些原则根据具体的业务以及实际的应用场景,灵活地运用到自己的Spark作业中。原则一:避免创建重复的RD...原创 2020-02-16 19:27:48 · 233 阅读 · 0 评论 -
Spark性能优化指南——基础篇
前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更快...转载 2019-02-15 15:41:12 · 88 阅读 · 0 评论 -
spark性能优化指南----高级篇(主要针对数据倾斜的情况)
前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spar...转载 2019-02-15 15:37:45 · 115 阅读 · 0 评论