![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 97
a18792721831
这个作者很懒,什么都没留下…
展开
-
sparksql将国家统计局csv文件解析并存储在hive表
sparksql将国家统计局csv文件解析并存储在hive表目的分析数据下载数据标准化数据存储开发环境集成实现项目创建依赖数据标准化DataFrame 行列转置数据存储主程序逻辑验证启动本地存储远程存储总结git地址:https://gitee.com/jyq_18792721831/sparkmaven.git目的学习大数据,那么数据从哪来?国家统计局可以免费下载社会上的各种数据,所以从国家统计局下载数据就是一个不错的数据来源渠道。当然这种只是适合自己练习或者有针对性的分析数据。一般各个公司都有自原创 2022-02-26 01:52:26 · 2010 阅读 · 0 评论 -
Hive的hiveserver2和beeline的使用以及spark thritfserver的启动
Hive的hiveserver2和beeline的使用以及spark thritfserver的启动Hive 的hiveserver2介绍hiveserver2 的配置beeline连接hiveserver2配置hiveserver2的界面spark thriftserver的配置beeline 连接spark thriftserverthriftserver和spark-sql对比spark sql 程序连接thriftserverHive 的hiveserver2介绍HiveServer2 (HS2原创 2022-02-24 23:24:19 · 5282 阅读 · 7 评论 -
spark sql 创建rdd以及DataFrame和DataSet互转
spark sql 创建rdd以及DataFrame和DataSet互转使用SparkSession读取本地文件创建rddDateSet的介绍DataFrame的介绍Rdd转DateFrame读取本地文件得到DataFrameDF风格查询sql风格查询查看sql的执行计划RDD通过指定结构转为DataFrameRDD通过反射构造结构转为DataFrameRdd 转DataSet从DataFrame或DataSet中获取RDDDataFrame和DateSet的互转spark sql 连接 thriftser原创 2022-02-24 01:42:37 · 1604 阅读 · 0 评论 -
使用maven集成java和scala开发环境
使用maven集成java和scala开发环境创建项目增加scala依赖创建目录安装scala插件scala的hello worldmaven 插件配置仓库maven-compile-pluginmaven-scala-pluginmaven-jar-pluginmaven-dependency-pluginmaven-assembly-pluginspark 开发环境git地址:https://gitee.com/jyq_18792721831/sparkmaven.git创建项目我们首先创建一个普原创 2022-02-18 01:16:10 · 2613 阅读 · 1 评论 -
spark源码编译和集群部署以及idea中sbt开发环境集成
spark源码编译和集群部署以及idea中sbt开发环境集成源码下载源码编译maven 下载scala 下载编译参数编译编译分发的二进制包单机启动集群部署开发环境集成源码编译的3.2.0版本无法在window上直接用spark-shell启动总结项目地址:https://gitee.com/jyq_18792721831/studyspark.git源码下载打开Apache Spark™ - Unified Engine for large-scale data analytics,下载源码在下载原创 2022-02-13 21:25:24 · 1517 阅读 · 2 评论 -
sbt使用教程
sbt使用教程sbt 配置sbt 单项目构建sbt 多项目构建sbt 配置定义sbt 任务定义sbt 作用域sbt 插件总结sbt 配置sbt 使用ivy作为自己的依赖库,类似maven的.m2文件夹,里面存储了sbt的缓存等信息。sbt本身有一些配置,但是这些配置在官网文档中没有说明,不过我们可以在sbtopts文件中查看相关的配置信息sbtopts文件在/sbt/conf文件夹下首先是仓库信息,配置的仓库决定了我们下载依赖的包的速度,我们可以选择国内的镜像,这样下载速度会比较快。首先在/s原创 2022-02-13 00:29:12 · 4638 阅读 · 2 评论 -
sbt入门
sbt入门sbt 介绍sbt 下载sbt 安装sbt 入门 -- helloworldsbt 目录结构sbt 命令总结sbt 介绍sbt是什么?sbt到底是什么,在网上找找,似乎找不到一个非常准确,而且大家都认可的定义。我自己对sbt的理解没有那么复杂,主要是以下这些。sbt翻译为simple build tool,这是一种较为直观的,而且比较符合sbt官网的一些信息:在官网的首页上第一条就说明sbt是一个简单的构建工具,所以翻译为simple build tool似乎也没有什么不妥。不过就原创 2022-02-10 22:59:09 · 2121 阅读 · 0 评论 -
spark--键值对操作
spark--键值对操作1. pair RDD2. pair RDD 创建3. pair RDD 转化操作3.1 reduceByKey 根据键聚合3.2 groupByKey 根据键分组3.3 keys 获取键3.4 values 获取值3.5 sortByKey 根据键排序3.6 mapValues 值操作3.7 flatMapValues 合并值流操作3.8 combineByKey 根据键自定义聚合3.9 subtractByKey 差集3.10 join 内连接3.11 rightOuterJoi原创 2020-06-01 20:09:10 · 840 阅读 · 0 评论 -
spark--RDD
spark--RDD1. RDD2. RDD操作2.1 转化操作2.1.1 filter2.1.2 union2.1.3 map2.1.4 flatMap2.2 行动操作2.2.1 count2.2.23. 惰性求值4. 函数传递1. RDDspark中的RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区,这些分区运行在集群中的不同节点上。存在两种方式创建RDD:读取程序外部数据集程序内构建RDD举例:RDD支持两种操作:转化操作和行动操作。转化操作和行动操作最大的区别原创 2020-05-29 11:45:35 · 530 阅读 · 0 评论 -
spark入门
spark 入门1. 下载2. 二进制包目录3. 配置4. 启动5. 体验5.1 数据准备5.2 spark-shell5.3 加载数据5.4 简单体验6. spark UI6.1 UI 入口6.2 作业汇总6.3 作业计算过程6.4 作业DAG6.5 作业描述指标6.6 作业调度6.7 作业拆分6.8 作业执行6.9 任务执行详细6.10 任务日志1. 下载在spark下载地址,下载spark二进制包。http://spark.apache.org/downloads.html这里不仅仅需要选择原创 2020-05-27 14:44:21 · 346 阅读 · 0 评论 -
hadoop安装
hadoop安装1.下载2.配置2.1 Java2.2 site配置2.3 hdfs工作模式2.4 yarn配置2.5 hdfs副本数3. 设置免密登录4. 启动4.1 格式化hdfs4.2 启动hdfs4.3 启动yarn5. 验证6. 各节点免密登录7. 子节点加入集群7.1 hdfs7.2 yarn8.简单使用8.1 hdfs1.下载https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.10.0/hadoop-2.10.0.ta原创 2020-05-22 19:38:18 · 406 阅读 · 0 评论 -
spark环境docker镜像二次开发--解决中文乱码
spark环境docker镜像二次开发0.前言1.准备2.编写dockerfiel3.启动4.异常排查0.前言官网的spark环境是英文环境,如果我们的spark在国内运行,就会出现中文乱码的问题。所以二次开发可以在官网镜像的基础上,定制一些本地化的修改。本次修改较小,只是解决中文乱码问题。中文乱码问题本质上是请求与返回的中文编码方式不一致的原因造成的。所以本次就是以修改镜像的语言环境...原创 2020-02-12 17:39:45 · 332 阅读 · 0 评论