![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 56
一年又半
一起进步
展开
-
spark版本bug总结
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入Traceback (most recent call last): File "/tmp/voldemort/0000原创 2021-11-23 20:13:55 · 2907 阅读 · 0 评论 -
Spark 源码解读04---(文件生成的)rdd的分区数据划分
2.4、从外部存储(文件)创建rdd的数据如何划分代码案例val conf = new SparkConf().setAppName("Simple Application").setMaster("local[*]")val sc = new SparkContext(conf)// 读取本地文件val readline = sc.textFile("input/1.txt")readline.collect.foreach(println)源码解读/*假设字节数为 7 默认分原创 2021-09-01 17:39:34 · 143 阅读 · 0 评论 -
Spark 源码解读03---(文件生成的)rdd的分区个数
2.3、从外部存储(文件)创建rdd的个数代码案例val conf = new SparkConf().setAppName("Simple Application").setMaster("local[*]")val sc = new SparkContext(conf)// 读取本地文件val readline = sc.textFile("input/1.txt")readline.collect.foreach(println)val par = readline.getNumPa原创 2021-09-01 17:38:33 · 219 阅读 · 0 评论 -
Spark 源码解读02---(集合生成的)rdd的分区数据划分
2.2、从集合中创建rdd的分区数据如何划分代码案例val conf = new SparkConf().setAppName("Simple Application").setMaster("local[*]")val sc = new SparkContext(conf)val rdd = sc.makeRDD(List(1,2,3,4,5),3)rdd.glom().collect()// 分区 [1] [2,3] [4,5]源码解析def makeRDD[T: ClassT原创 2021-09-01 17:35:18 · 205 阅读 · 0 评论 -
Spark 源码解读01---(集合生成的)rdd的分区数
从源码角度分析集合(内存)创建rdd过程分区个数的生成。代码案例val conf = new SparkConf().setAppName("Simple Application").setMaster("local[*]")val sc = new SparkContext(conf)// 创建时指定分区val rdd = sc.makeRDD(List(1,2,3,4,5),3)源码解析/*rdd 创建seq: Seq[T] 数据集合numSlices: Int = d.原创 2021-09-01 17:28:17 · 181 阅读 · 0 评论 -
pyspark操作hive分区表以及.gz.parquet和part-00000文件压缩问题
文章目录pyspark 操作hive表1> `saveAsTable`写入2> `insertInto`写入2.1> 问题说明2.2> 解决办法3>`saveAsTextFile`写入直接操作文件pyspark 操作hive表pyspark 操作hive表,hive分区表动态写入;最近发现spark动态写入hive分区,和saveAsTable存表方式相比,文件压缩比大约 4:1。针对该问题整理了 spark 操作hive表的几种方式。1> saveAsTab原创 2021-08-25 10:16:54 · 1018 阅读 · 0 评论 -
window10 下spark 2.2.3源码编辑
文章目录:rose: spark1、源码编辑1.1、环境准备1.2、官网下载Spark 源码1.3、使用maven指令编译1.4、代码测试???? spark1、源码编辑为了深入学习saprk,想看看源码,故自己down了源码,采用maven 编辑了一下。记录代码编译过程以及遇见的问题1.1、环境准备windows10IDEA2017Maven 3.6.3JDK 1.8 (自Spark 2.2.0起,对Java 7的支持已被删除!)scala 2.11.8 (注意和spark 版本原创 2021-08-19 10:59:08 · 151 阅读 · 0 评论 -
win10 Anaconda 安装pyspark cmd-->pyspark:系统找不到指定的路径
win10 Anaconda 安装pyspark cmd–>pyspark:系统找不到指定的路径安装$conda install pyspark cmd检验报错C:\Users\Administrator>pyspark系统找不到指定的路径C:\Users\Administrator>如果只是通过conda 安装的pyspark 不生效 可以从以下几个角度查看问题JAVA_HOME 配置问题,可能java -version 可以出现版本,但是jre配置出错,原创 2021-04-26 22:10:35 · 1055 阅读 · 0 评论 -
windows下pyspark连接mysql报错:java.lang.ClassNotFoundException: com.mysql.jdbc.Driver
windows下pyspark连接mysql报错:java.lang.ClassNotFoundException: com.mysql.jdbc.Driver: java.lang.ClassNotFoundException: com.mysql.jdbc.Driver2021年4月12日23:09:37pyspark中sparksql连接mysql 报错: java.lang.ClassNotFoundException: com.mysql.jdbc.Driver at jav原创 2021-04-13 08:49:04 · 505 阅读 · 0 评论 -
Win10 下部署pyspark
文章目录Win10 下部署pyspark 工作环境1、环境安装1.1 、windows 环境部署pyspark1.1.1 安装JDK1.1.2 下载 scala1.1.3 下载并安装hadoop + winutils.exe1.1.4 下载安装spark1.1.5 Anconda 中下载 pysparkWin10 下部署pyspark 工作环境1、环境安装1.1 、windows 环境部署pyspark1.1.1 安装JDKjdk版本需要选择1.8 及以上下载地址https://ww原创 2021-04-05 10:30:15 · 544 阅读 · 0 评论