![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
SPARK
yostkevin
热爱编程,喜欢各种球类运动。
展开
-
hive array类型字段 建表
-- test_databases.test_imp07 definitionCREATE EXTERNAL TABLE `test_databases.test_imp07`( `exps` array<struct<id:string,l:string>> COMMENT 'ceshi')ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' WITH SERDEPROPE...原创 2021-08-31 17:20:57 · 10 阅读 · 0 评论 -
spark 编程demo
1. 项目结构2. pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0...原创 2021-08-08 18:11:18 · 13 阅读 · 0 评论 -
idea配置 HADOOP_HOME
1.下载winutils.exehttps://github.com/vhma/winutils2.去集群环境把hadoop/3.2.1-1.2.0/package 下面的文件夹压缩,然后拿出来,解压,并配置好windows 环境变量 或者去网上下相关hadoop环境3. 解压winutils.master.zip 进入与集群环境一样的版本里面的bin目录,把里面的所有文件都拷贝一份到 第二步解压的bin目录下4.重启idea,启动spark 程序即可。...原创 2021-07-23 18:27:37 · 19 阅读 · 0 评论 -
SparkSQL – 从0到1认识Catalyst
原文地址:http://hbasefly.com/2017/03/01/sparksql-catalyst/最近想来,大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验,弱势在于分布式领域的高可用性、容错性、扩展性等,假以时日,让其经过一定的改造,比如引入Paxos、raft等,强化自己在分布式领域的能力,相信一定会在大数据系统中占有...转载 2019-04-19 14:47:54 · 264 阅读 · 0 评论 -
spark2 对比spark1
1. 流处理的对比spark2引入structStreaming,在流表上统一了sql api,但是受限比较大。2.切入点spark2 引入sparkSession 统一了sqlcontext和hivecontext3.spark2兼容spark1的所有算子,将DF整合到了dataset4.在内存和CPU使用方面进一步优化Spark引擎性能(钨丝计划)。支持SQL 2003标准...原创 2019-03-24 12:09:15 · 1381 阅读 · 0 评论 -
spark 调优
1.pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocatio...原创 2019-03-24 12:10:45 · 285 阅读 · 0 评论 -
spark 数据倾斜
一. 数据倾斜的现象多数task执行速度较快,少数task执行时间非常长,或者等待很长时间后提示你内存不足,执行失败。二. 数据倾斜的原因常见于各种shuffle操作,例如reduceByKey,groupByKey,join等操作。数据问题key本身分布不均匀(包括大量的key为空)key的设置不合理spark使用问题shuffle时的并发度不够计算方式有误三. ...原创 2019-01-03 20:45:52 · 132 阅读 · 0 评论 -
spark streaming 滑动窗口
滑动窗口DStream.window(window length,sliding interval) batch interval:批处理时间间隔,spark streaming将消息源(Kafka)的数据,以流的方式按批处理时间间隔切片,一个批处理间隔时间对应1个切片对应生成的1个RDDwindow length :窗口时间长度,每个批处理间隔将会实际处理的RDD个数(1...n...原创 2018-10-22 12:34:30 · 5379 阅读 · 3 评论 -
Spark中DataFrame与Pandas中DataFrame的区别
出处:http://www.lining0806.com/spark与pandas中dataframe对比/ Pandas Spark 工作方式 单机single machine tool,没有并行机制parallelism 不支持Hadoop,处理大量数据有瓶颈 分布式并行计算框架,内建并行机制parallelism,所有的数据和操作自动并行分布在各...转载 2018-09-09 11:27:06 · 757 阅读 · 0 评论 -
Spark RDD的Transformation操作
https://blog.csdn.net/zzh118/article/details/519981631、创建RDD的两种方式: (1)、从HDFS读入数据产生RDD; (2)、有其他已存在的RDD转换得到新的RDD;scala> val textFile = sc.textFile("hdfs://192.169.26.58:9000/home/datamining...转载 2018-09-09 11:16:00 · 769 阅读 · 0 评论