spark
文章平均质量分 60
大数据之spark
undo_try
这个作者很懒,什么都没留下…
展开
-
从mysql读数据创建DataFrame
第一种方式spark.read.jdbc()object _01_ReadJDBC { def main(args: Array[String]): Unit = { //1、创建spark session val spark: SparkSession = SparkSession.builder().master("local[*]").getOrCreate() val properties = new Properties() properties.setP原创 2021-06-17 21:21:39 · 272 阅读 · 0 评论 -
sparksql经典案例之连续登录问题(求每个用户连续登录最大的天数,最少登录3天)
求每个用户连续登录最大的天数,最少登录3天结果最终的结果如下:+------+-----+----------+----------+| uid|times|start_date| end_date|+------+-----+----------+----------+|guid01| 4|2018-03-04|2018-03-07||guid02| 3|2018-03-01|2018-03-03||guid03| 3|2018-03-09|2018-03-11|原创 2021-06-16 21:39:24 · 502 阅读 · 0 评论 -
数据湖架构Hudi(二)Hudi版本0.12源码编译、Hudi集成spark、使用IDEA与spark对hudi表增删改查
数据湖架构Hudi(二)Hudi版本0.12源码编译、Hudi集成spark、使用IDEA与spark对hudi表增删改查原创 2023-02-28 22:46:41 · 2778 阅读 · 2 评论 -
创建DataFrame的几种方式
1、从RDD创建DataFrame(1)利用元组创建object _01_SparkSession { def main(args: Array[String]): Unit = { //1、创建spark session val spark: SparkSession = SparkSession.builder().master("local[*]").getOrCreate() //2、依据sc创建rdd val sc: SparkContext = spar原创 2021-06-16 20:40:54 · 8183 阅读 · 0 评论 -
数据湖架构Hudi(三)Hudi核心概念
数据湖架构Hudi(三)Hudi核心概念原创 2023-03-01 17:53:22 · 2623 阅读 · 0 评论 -
数据湖架构Hudi(四)Hudi集成Spark案例详解
Hudi集成Spark案例详解原创 2023-03-02 17:53:51 · 1716 阅读 · 0 评论 -
数据湖架构Hudi(五)Hudi集成Flink案例详解
数据湖架构Hudi(五)Hudi集成Flink案例详解原创 2023-03-06 21:45:38 · 3651 阅读 · 4 评论 -
Spark MLlib机器学习库(一)决策树和随机森林案例详解
Spark MLlib机器学习库(一)决策树和随机森林案例详解原创 2023-08-15 20:25:10 · 1776 阅读 · 0 评论 -
Spark MLlib快速入门(1)逻辑回归、Kmeans、决策树、Pipeline、交叉验证
Spark MLlib快速入门(1)逻辑回归、Kmeans、决策树、Pipeline、交叉验证原创 2023-07-17 15:01:37 · 3063 阅读 · 0 评论 -
sparksql 自定义udf、udaf、udtf函数详细案例
sparksql 自定义udf、udaf、udtf函数详细案例原创 2022-07-08 15:52:17 · 905 阅读 · 0 评论 -
spark性能优化(二)数据倾斜问题
saprk数据倾斜问题原创 2022-06-14 10:09:10 · 219 阅读 · 1 评论 -
spark性能优化(一)常规性能优化、RDD算子、Shuffle的调优、JVM调优
spark性能调优原创 2022-06-13 11:16:56 · 573 阅读 · 0 评论 -
spark ml基于dataframe的api
spark ml基于dataframe的线性回归官网:https://spark.apache.org/docs/2.4.5/ml-guide.html1、使用线性回归预测boston房价package com.yyds.tags.ml.regressionimport org.apache.spark.ml.linalgimport org.apache.spark.ml.linalg.Vectorsimport org.apache.spark.ml.regression.LinearRe原创 2022-03-20 20:02:14 · 264 阅读 · 0 评论 -
使用spark mllib中协同过滤推荐算法ALS建立推荐模型
使用spark mllib中协同过滤推荐算法ALS建立推荐模型package com.yyds.tags.ml.rs.rddimport org.apache.spark.mllib.evaluation.RegressionMetricsimport org.apache.spark.mllib.recommendation.{ALS, MatrixFactorizationModel, Rating}import org.apache.spark.rdd.RDDimport org原创 2022-03-16 23:38:59 · 1976 阅读 · 0 评论 -
SparkSQL中开窗函数DSL编程
SparkSQL中开窗函数DSL编程代码示例:package com.yyds.tags.test.sparkimport org.apache.spark.sql.expressions.Windowimport org.apache.spark.sql.{DataFrame, SparkSession}/** * @DESC: SparkSQL中开窗函数DSL编程 */object SQLWindowFunTest { def main(args: Array[String])原创 2022-03-15 23:16:49 · 1242 阅读 · 0 评论 -
sparksql自定义数据源
sparksql自定义数据源Spark SQL开放了一系列接入外部数据源的接口,来让开发者可以实现,接口在 org.apache.spark.sql.sources 包下:interfaces.scala 。(1)DefaultSourcepackage com.yyds.tags.spark.hbaseimport org.apache.spark.sql.{DataFrame, SQLContext, SaveMode}import org.apache.spark.sql.source原创 2022-03-14 22:11:05 · 3133 阅读 · 0 评论 -
SparkSession和Hbase交互
1、利用SparkSession从Hbase中读取数据,转换为DataFramepackage com.yyds.tags.toolsimport org.apache.hadoop.conf.Configurationimport org.apache.hadoop.hbase.util.Base64import org.apache.hadoop.hbase.HBaseConfigurationimport org.apache.hadoop.hbase.client.{Put, Resu原创 2022-03-10 22:37:47 · 1242 阅读 · 0 评论 -
spark-core从hbase中读写数据
spark交互HBaseSpark可以从HBase表中读写(Read/Write)数据,底层采用 TableInputFormat 和 TableOutputFormat 方式,与MapReduce与HBase集成完全一样,使用相同输入格式InputFormat 和输出格式 OutputFoamt 。1、写入数据package com.yyds.tags.hbase.writeimport org.apache.hadoop.conf.Configurationimport org.apac原创 2022-03-06 17:30:54 · 956 阅读 · 0 评论 -
MySQL数据库数据迁移到Hbase的几种方法
1、使用sqoop直接导入(1)创建Hbase表-- 1、如果用户表存在先删除 hbase(main):013:0> disable 'tbl_users' hbase(main):014:0> drop 'tbl_users'-- 或者清空表 hbase(main):015:0> truncate 'tbl_users'-- 2、创建用户表 hbase(main):016:0> create 'tbl_users','detail' hbase(main):019:原创 2022-03-03 20:19:30 · 5261 阅读 · 0 评论 -
redis实现事务(pipeline)
1、导入redis的客户端jedis <!--导入redis的客户端jedis jar包--> <dependency> <groupId>redis.clients</groupId> <artifactId>jedis</artifactId> <version>2.8.1</version> <原创 2021-06-30 23:44:49 · 637 阅读 · 0 评论 -
Sparkstreaming从Kafka中读取数据,数据和偏移量写入到Mysql中(开启事务)
从Kafka中读取数据,完成聚合类的操作,最后将【偏移量】和【计算好的聚合结果】同时写入到MySQL中MySQL 是一个【支持事务】的关系型数据库,使用事务可以保证【计算好的聚合结果】和【偏移量】同时写入成功1、MySql中建表-- kafka中读取数据,写入到mysql中所创建的表-- 1、写入的数据CREATE TABLE word_counts(word VARCHAR(255) NOT NULL PRIMARY KEY,counts INT);-- 测试insert into原创 2021-06-30 22:52:51 · 594 阅读 · 0 评论 -
sparkstreaming从kafka中读取数据并手动提交偏移量
1、sparkstreaming从kafka中读取数据,进行单词统计首先需要引入依赖,可以参考: https://blog.csdn.net/qq_44665283/article/details/118346847?spm=1001.2014.3001.5501kafka和sparkstreaming的整合参考官方文档: http://spark.apache.org/docs/latest/streaming-kafka-0-10-integration.htmlimport org.apach原创 2021-06-30 15:58:44 · 1026 阅读 · 0 评论 -
深入理解Spark中的Cache和Checkpoint
Spark中的Cache和Checkpoint机制与Hadoop MapReduce的区别Hadoop MapReduce 在执行 job 的时候,不停地做持久化,每个 task 运行结束做一次,每个 job 运行结束做一次(写到 HDFS)。在 task 运行过程中,也不停地在内存和磁盘间 swap 来 swap 去。可是讽刺的是,Hadoop 中的 task 太傻,中途出错需要完全重新运行,比如 shuffle 了一半的数据存放到了磁盘,下次重新运行时仍然要重新 shuffle。Spark 好的一点原创 2021-06-15 20:26:25 · 821 阅读 · 0 评论 -
Spark的shuffle优化、join优化、数据倾斜优化
Spark的shuffle优化shuffle定义及哪些操作产生shufflespark中的shuffle操作功能:将分布在集群中多个节点上的同一个key,拉取到同一个节点上,进行聚合或join操作,类似洗牌的操作。RDD的特性是不可变的带分区的记录集合,Spark提供了Transformation和Action两种操作RDD的方式。Transformation是生成新的RDD,包括map, flatMap, filter, union, sample, join, groupByKey, cogro原创 2021-06-12 14:29:01 · 3071 阅读 · 1 评论 -
Spark常见面试题
1、spark的有几种部署模式,每种模式特点?1)本地模式 Spark不一定非要跑在hadoop集群,可以在本地,起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地,一般都是为了方便调试,本地模式分三类 local:只启动一个executor local[k]:启动k个executor local[ * ]:启动跟cpu数目相同的 executor2)standalone模式 分布式部署集群,自带完整的服务,资源管理和任务监控是Spark自己监控,这个模式也是其他模原创 2021-06-12 11:33:59 · 430 阅读 · 0 评论 -
spark_core根据IP地址计算访问日志中每一个归属地的出现的次数
根据IP地址计算访问日志中每一个归属地的出现的次数#根据IP地址计算访问日志中每一个归属地的出现的次数(用累计器实现各个省份的访问次数)##实现object _09_IP { def main(args: Array[String]): Unit = { val sc: SparkContext = SparkUtils.getSparkContext //1.0.1.0|1.0.3.255|16777472|16778239|亚洲|中国|福建|福州||电信|350100|Chin原创 2021-06-11 21:03:07 · 871 阅读 · 0 评论