spark
maketubu7
这个作者很懒,什么都没留下…
展开
-
pyspark 与es的交互
# Author:Dengwenxing# -*- coding: utf-8 -*-# @Time :2019/12/30 15:09# @Site :# @fILE : esReader.py# @Software :import sys, osfrom pyspark import SparkConffrom pyspark.sql import SparkSessionfrom pyspark.sql import functions as funfr.原创 2020-05-25 18:45:17 · 1933 阅读 · 0 评论 -
pyspark集群环境中jdk版本不兼容,python无相应模块的包的解决办法
问题:在某些情况下,我们会用到其他厂商的大数据平台,而我们是没有相关管理权限的,但是集群和我们已有的代码所需要的环境存在差异,所以我们要向集群设置我们自己的运行环境的参数等,主要解决方案如下1、对于pyspark,首先我们需要一个我们的相关的所有包的python虚拟环境,这里推荐anaconda的虚拟环境,里面包含很多科学计算的模块便于数据分析使用,在任意一台能联网的机器上创建一个con...原创 2020-05-08 14:54:08 · 1454 阅读 · 0 评论 -
pyspark 与hbase的读写
在读取hbase的时候,由于hbase存储的是16进制的字节码,我这里用了各种方法,都无法在转换为df的时候,将其转换为中文,看了很多方法,各种decode, encode都没有找到合适的方法,如果有哪位同学,在看到这篇文章并解决了这个问题,麻烦告知我一声,谢谢读取hbase 需将hbase下lib的几个常用包,软连接到spark的jars目录下出现无法读取hive.sql的问题,将hi...原创 2019-12-31 17:17:09 · 1515 阅读 · 0 评论 -
spark 读写hbase
测试代码package make.zhangsheniMainimport make.bean.CaseClass.userimport make.service.HbaseServiceimport make.tools.PropertiesToolimport org.apache.hadoop.hbase.client.{Put, Result}import org.apa...原创 2019-11-06 16:37:15 · 217 阅读 · 0 评论 -
spark 读写 es
测试代码:package make.zhangsheniMain/** * Hello world! * */import make.bean.CaseClass.{people, people_id}import make.service.EsServiceimport make.tools.{DateUtils, PropertiesTool}import or...原创 2019-11-06 16:33:43 · 684 阅读 · 0 评论 -
pyspark 对RDD的相关api
1、aggregate,可以用来求平均值如下示例rdd2 = spark.sparkContext.parallelize([1,2,3,4,5,6,7,8,9,10])seqop = (lambda x,y: (x[0]+ y, x[1]+ 1)) #0+1 0+1 1+2 1+1 3+3 2+1cpmop= (lambda x,y: (x[0]+ y[0],...原创 2018-10-18 11:34:52 · 1380 阅读 · 0 评论 -
配置jupyter 虚拟机spark+python2.7.15
1、将默认的 phthon2.6.6 换成2.7.15 如下wget https://www.python.org/ftp/python/2.7.15/Python-2.7.15.tgztar -zxvf Python-2.7.15.tgzcd Python-2.7.15./configure --prefix=/usr/local/python2makemake ins...原创 2018-10-15 16:05:25 · 544 阅读 · 0 评论 -
工作中 pyspark的小知识点
1、df.na.fill({'字段名1':'default','字段名2':'default'}) 对空值进行替换2、df.dropDuplicaates() 去重根据字段名进行去重,空参为全部字段3、df.subtract(df1) 返回在当前df中出现,并且不在df1中出现的元素,不去重。4、print time.localtime([timestamp]) ...原创 2018-10-16 19:46:10 · 984 阅读 · 0 评论 -
pyspark 对接kafka 写入hive
1、pyspark 对接kafka需要依赖一些jar包 kafka-0-8或者kafka-0-10的关于kafka版本的全部的包 大概如下,反正如果jar包不全会有各种异常信息,到时候对应着补齐就行,注意自己的kafka和spark的版本 kafka_2.x-0.x.0.0.jar kafka-client-0.x.0.0.jar spark-sql-kafk...原创 2019-03-08 11:55:04 · 2481 阅读 · 0 评论 -
记一次pyspark 的一个报错处理
在运行PySpark程序的时候,报错为:PySpark error: AttributeError: 'NoneType' object has no attribute '_jvm'是因为定义了一个udf函数,在函数中使用abs()方法,于是就出现了这种情况查找原因发现是使用from pyspark.sql.functions import * 语句引入的时候,覆盖了abs()方法导致...原创 2019-03-30 16:54:27 · 675 阅读 · 0 评论 -
jyputer notebook 与pyspark在本地windows的环境配置
1、下载anacond并安装,可以选择自动配置环境变量,也可以后面手动配置环境变量2、http://spark.apache.org/downloads.html下载spark的对应版本3、解压到一个指定的你想要存放的本地spark目录,自己创建,方便以后管理4、设置各种环境变量,如下这里 java scala 的环境配置不必要但是还是需要配置一下,特别注意这里的PYSP...原创 2019-04-12 20:08:47 · 668 阅读 · 0 评论 -
spark sql 的常用写法
import org.apache.spark.sql.{SaveMode, SparkSession}import org.apache.spark.sql.types.{LongType, StringType, StructField, StructType}object taxi_csv { def main(args: Array[String]): Unit = { ...原创 2018-09-28 17:13:12 · 1572 阅读 · 0 评论 -
sparkstream 2.2.0 结合 kafka_2.10-0.10.2.1 的消费示例演示
今天讲了kafka和sparkstream的一个简单结合,试着在网上找了一个例子进行实现1、相关配置 spark2.2.0,scala2.11.8,kafka_2.10-0.10.2.1,jdk1.82、这里是自己的pom.xml文件 如下<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://...原创 2018-08-08 19:14:26 · 1853 阅读 · 0 评论 -
spark 基本概念与入门
Spark集群一组计算机的集合,每个计算机节点作为独立的计算资源,又可以虚拟出多个具备计算能力的虚拟机,这些虚拟机是集群中的计算单元。Spark的核心模块专注于调度和管理虚拟机之上分布式计算任务的执行,集群中的计算资源则交给Cluster Manager这个角色来管理,Cluster Manager可以为自带的Standalone、或第三方的Yarn和Mesos。Cluster Mana...转载 2018-08-06 10:16:44 · 149 阅读 · 0 评论 -
spark 数据倾斜 解决思路
数据倾斜调优- 绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时,这种情况很常见- 原本能够正常执行的Spark作业,某天突然报出OOM(内存溢出)异常,观察异常栈,是我们写的业务代码造成的。这种情况比较少见数据倾斜发生的原因:在进行shuffle的时候,必须将各个节点上...转载 2018-08-06 10:16:29 · 196 阅读 · 0 评论 -
spark 性能调优 常见思路 基础篇
前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更...转载 2018-08-06 09:54:07 · 239 阅读 · 0 评论 -
spark 性能调优 高级篇 数据倾斜,和shuffle调优
前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证...转载 2018-08-06 09:55:09 · 207 阅读 · 0 评论 -
spark 提交任务到yarn上运行
1、在idea上先写好,自己的代码并进行测试,这里贴一个很简单的统计单词个数的代码package sparkimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object WordCount { def main(args: Array[String]) { /...原创 2018-07-20 17:54:57 · 5334 阅读 · 0 评论 -
spark 底层调度
Spark Scheduler内部原理讲解分布式运行框架Spark可以部署在多种资源管理平台,例如Yarn、Mesos等,Spark本身也实现了一个简易的资源管理机制,称之为Standalone模式。由于工作中接触较多的是Spark on Yarn,以下所述表示Spark on Yarn。Spark部署在Yarn上有两种运行模式,分别是client和cluster模式,它们的区别仅仅在于S...转载 2018-07-31 18:46:37 · 856 阅读 · 0 评论 -
spark 的内存管理机制
1. 堆内和堆外内存规划作为一个 JVM 进程,Executor 的内存管理建立在 JVM 的内存管理之上,Spark 对 JVM 的堆内(On-heap)空间进行了更为详细的分配,以充分利用内存。同时,Spark 引入了堆外(Off-heap)内存,使之可以直接在工作节点的系统内存中开辟空间,进一步优化了内存的使用。图 1 . 堆内和堆外内存示意图1.1 堆内内存堆内内存的大...转载 2018-08-06 09:56:55 · 2998 阅读 · 0 评论 -
Spark Cache和Checkpoint功能
Cache 和 Checkpoint作为区别于 Hadoop 的一个重要 feature,cache 机制保证了需要访问重复数据的应用(如迭代型算法和交互式应用)可以运行的更快。与 Hadoop MapReduce job 不同的是 Spark 的逻辑/物理执行图可能很庞大,task 中 computing chain 可能会很长,计算某些 RDD 也可能会很耗时。这时,如果 task 中途运...转载 2018-08-06 10:16:54 · 1358 阅读 · 1 评论 -
spark2.2.0 kafka 0.10.2.1的createDirectStream第一次尝试
1、这里简单记录一下 kafka的简单操作命令 创建Topic $ bin/kafka-topics.sh --create --topic make2 --zookeeper make.spark.com:2181/kafka_10 --replication-factor 3 --partitions 3 --config max.message.bytes=128000...原创 2018-08-07 23:44:13 · 958 阅读 · 0 评论 -
spark RDD的底层原理、任务提交、资源调度等记录
开始在IDEA中编写代码(可以用spark实现原始的mapreduceSpark on windows local 异常信息: 1. 17/05/20 09:32:08 ERROR SparkContext: Error initializing SparkContext. org.apache.spark.SparkException: A master URL ...原创 2018-07-23 18:14:45 · 1762 阅读 · 0 评论