SPARK
spark
乔诺『布菲』
这个作者很懒,什么都没留下…
展开
-
Spark中reduceByKey(_+_)的说明
Spark中reduceByKey(+)的说明比如我的内存中存在如下的以key-value形式的数据集(RDD):hello:1 sparkSubmit:1 red:1 sparkSubmit:1 hello:2 hello:1 hello:4 red:1 red:1 red:1 … …reduceByKey的作用对象是(key, value)形式的RDD,而reduce有减少、压缩之意,reduceByKey的作用就是对相同key的数据进行处理,最终每个k转载 2021-06-28 19:37:22 · 172 阅读 · 0 评论 -
如何使用idea进行spark编程,访问hive?
准备工作:(1)需要将 hive-site.xml 放到 resources 目录下示意图演示将 hive-site.xml 下载到桌面,然后将其拉进idea里面的 resources 目录下(2)修改 hive-site.xml 文件,把 localhost 修改成ip地址或者是机器域名示意图演示(3)本机 hosts 文件中配置 ip 域名映射(4)添加依赖示意图演示以上步骤全部都准备完成后,开始编写spark代码package day0628import org.apa原创 2021-06-28 17:16:30 · 407 阅读 · 0 评论 -
spark 读取 hive 数据
准备工作:将hive进程起来nohup hive --service metastore &nohup hive --service hiveserver2 &beeline -u jdbc:hive2://localhost:10000找到要读取的数据 即在数据库名为 lianxi 表名为 stu 的数据开始操作:首先 需要将 hive-site.xml 拷贝到 spark/conf 目录下具体代码[root@hadoop7 conf]# cp /opt/install原创 2021-06-28 16:53:51 · 612 阅读 · 0 评论 -
spark 写 parquet 文件到 hdfs 上、以及到本地
spark 写 parquet 文件到本地package SQLimport org.apache.spark.SparkContextimport org.apache.spark.sql.{DataFrame, SparkSession}object Demo7_2 extends App { val spark: SparkSession = SparkSession.builder().master("local[4]") .appName("demo1").getOrCreate原创 2021-06-28 16:21:22 · 1649 阅读 · 0 评论 -
打包spark应用程序,提交到集群运行的相关代码
以WordCount程序为例进行说明首先 在idea中编写好WordCount的代码package day0628import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object WordCount extends App {// if(args.length <1){// println("参数必须传递 local yarn")// System.exit(-原创 2021-06-28 13:52:11 · 294 阅读 · 0 评论 -
Spark(jdbc)连接mysql,读取里面的表并进行查询
第一步:需要到下面的网站里去找依赖https://mvnrepository.com/找到自己mysql对应的版本 (sql查看版本命令:select @@version)我的是8.0.24版,所以我需要使用8.0.24依赖<!-- https://mvnrepository.com/artifact/mysql/mysql-connector-java --><dependency> <groupId>mysql</groupId>原创 2021-06-25 10:20:31 · 917 阅读 · 0 评论 -
用SparkContext(简称sc)去加载csv文件,如何去掉头部信息?
//sc方式 //首先要读取这个文件 private val rdd: RDD[String] = sc.textFile("file:///D:\\workspace\\b07sparkdemo\\data\\users.csv") private val rdd2: RDD[String] = rdd.mapPartitionsWithIndex((index, iter) => { if (index == 0) iter.drop(1) else iter }) r原创 2021-06-23 17:48:25 · 814 阅读 · 0 评论