spark
文章平均质量分 63
大数据之spark
undo_try
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
从mysql读数据创建DataFrame
第一种方式spark.read.jdbc()object _01_ReadJDBC { def main(args: Array[String]): Unit = { //1、创建spark session val spark: SparkSession = SparkSession.builder().master("local[*]").getOrCreate() val properties = new Properties() properties.setP原创 2021-06-17 21:21:39 · 398 阅读 · 0 评论 -
数据湖架构Hudi(二)Hudi版本0.12源码编译、Hudi集成spark、使用IDEA与spark对hudi表增删改查
数据湖架构Hudi(二)Hudi版本0.12源码编译、Hudi集成spark、使用IDEA与spark对hudi表增删改查原创 2023-02-28 22:46:41 · 3479 阅读 · 2 评论 -
创建DataFrame的几种方式
1、从RDD创建DataFrame(1)利用元组创建object _01_SparkSession { def main(args: Array[String]): Unit = { //1、创建spark session val spark: SparkSession = SparkSession.builder().master("local[*]").getOrCreate() //2、依据sc创建rdd val sc: SparkContext = spar原创 2021-06-16 20:40:54 · 8477 阅读 · 0 评论 -
数据湖架构Hudi(三)Hudi核心概念
数据湖架构Hudi(三)Hudi核心概念原创 2023-03-01 17:53:22 · 3003 阅读 · 0 评论 -
数据湖架构Hudi(四)Hudi集成Spark案例详解
Hudi集成Spark案例详解原创 2023-03-02 17:53:51 · 2445 阅读 · 0 评论 -
数据湖架构Hudi(五)Hudi集成Flink案例详解
数据湖架构Hudi(五)Hudi集成Flink案例详解原创 2023-03-06 21:45:38 · 4499 阅读 · 4 评论 -
Spark MLlib机器学习库(一)决策树和随机森林案例详解
Spark MLlib机器学习库(一)决策树和随机森林案例详解原创 2023-08-15 20:25:10 · 2431 阅读 · 0 评论 -
Spark MLlib快速入门(1)逻辑回归、Kmeans、决策树、Pipeline、交叉验证
Spark MLlib快速入门(1)逻辑回归、Kmeans、决策树、Pipeline、交叉验证原创 2023-07-17 15:01:37 · 4277 阅读 · 0 评论 -
sparksql 自定义udf、udaf、udtf函数详细案例
sparksql 自定义udf、udaf、udtf函数详细案例原创 2022-07-08 15:52:17 · 1347 阅读 · 0 评论 -
spark性能优化(二)数据倾斜问题
saprk数据倾斜问题原创 2022-06-14 10:09:10 · 447 阅读 · 1 评论 -
spark性能优化(一)常规性能优化、RDD算子、Shuffle的调优、JVM调优
spark性能调优原创 2022-06-13 11:16:56 · 858 阅读 · 0 评论 -
使用spark mllib中协同过滤推荐算法ALS建立推荐模型
使用spark mllib中协同过滤推荐算法ALS建立推荐模型package com.yyds.tags.ml.rs.rddimport org.apache.spark.mllib.evaluation.RegressionMetricsimport org.apache.spark.mllib.recommendation.{ALS, MatrixFactorizationModel, Rating}import org.apache.spark.rdd.RDDimport org原创 2022-03-16 23:38:59 · 2340 阅读 · 0 评论 -
SparkSQL中开窗函数DSL编程
SparkSQL中开窗函数DSL编程代码示例:package com.yyds.tags.test.sparkimport org.apache.spark.sql.expressions.Windowimport org.apache.spark.sql.{DataFrame, SparkSession}/** * @DESC: SparkSQL中开窗函数DSL编程 */object SQLWindowFunTest { def main(args: Array[String])原创 2022-03-15 23:16:49 · 1344 阅读 · 0 评论 -
sparksql自定义数据源
sparksql自定义数据源Spark SQL开放了一系列接入外部数据源的接口,来让开发者可以实现,接口在 org.apache.spark.sql.sources 包下:interfaces.scala 。(1)DefaultSourcepackage com.yyds.tags.spark.hbaseimport org.apache.spark.sql.{DataFrame, SQLContext, SaveMode}import org.apache.spark.sql.source原创 2022-03-14 22:11:05 · 3360 阅读 · 0 评论 -
SparkSession和Hbase交互
1、利用SparkSession从Hbase中读取数据,转换为DataFramepackage com.yyds.tags.toolsimport org.apache.hadoop.conf.Configurationimport org.apache.hadoop.hbase.util.Base64import org.apache.hadoop.hbase.HBaseConfigurationimport org.apache.hadoop.hbase.client.{Put, Resu原创 2022-03-10 22:37:47 · 1415 阅读 · 0 评论 -
spark-core从hbase中读写数据
spark交互HBaseSpark可以从HBase表中读写(Read/Write)数据,底层采用 TableInputFormat 和 TableOutputFormat 方式,与MapReduce与HBase集成完全一样,使用相同输入格式InputFormat 和输出格式 OutputFoamt 。1、写入数据package com.yyds.tags.hbase.writeimport org.apache.hadoop.conf.Configurationimport org.apac原创 2022-03-06 17:30:54 · 1091 阅读 · 0 评论 -
MySQL数据库数据迁移到Hbase的几种方法
1、使用sqoop直接导入(1)创建Hbase表-- 1、如果用户表存在先删除 hbase(main):013:0> disable 'tbl_users' hbase(main):014:0> drop 'tbl_users'-- 或者清空表 hbase(main):015:0> truncate 'tbl_users'-- 2、创建用户表 hbase(main):016:0> create 'tbl_users','detail' hbase(main):019:原创 2022-03-03 20:19:30 · 5984 阅读 · 0 评论 -
redis实现事务(pipeline)
1、导入redis的客户端jedis <!--导入redis的客户端jedis jar包--> <dependency> <groupId>redis.clients</groupId> <artifactId>jedis</artifactId> <version>2.8.1</version> <原创 2021-06-30 23:44:49 · 738 阅读 · 0 评论 -
Sparkstreaming从Kafka中读取数据,数据和偏移量写入到Mysql中(开启事务)
从Kafka中读取数据,完成聚合类的操作,最后将【偏移量】和【计算好的聚合结果】同时写入到MySQL中MySQL 是一个【支持事务】的关系型数据库,使用事务可以保证【计算好的聚合结果】和【偏移量】同时写入成功1、MySql中建表-- kafka中读取数据,写入到mysql中所创建的表-- 1、写入的数据CREATE TABLE word_counts(word VARCHAR(255) NOT NULL PRIMARY KEY,counts INT);-- 测试insert into原创 2021-06-30 22:52:51 · 765 阅读 · 0 评论 -
sparkstreaming从kafka中读取数据并手动提交偏移量
1、sparkstreaming从kafka中读取数据,进行单词统计首先需要引入依赖,可以参考: https://blog.csdn.net/qq_44665283/article/details/118346847?spm=1001.2014.3001.5501kafka和sparkstreaming的整合参考官方文档: http://spark.apache.org/docs/latest/streaming-kafka-0-10-integration.htmlimport org.apach原创 2021-06-30 15:58:44 · 1192 阅读 · 0 评论 -
深入理解Spark中的Cache和Checkpoint
Spark中的Cache和Checkpoint机制与Hadoop MapReduce的区别Hadoop MapReduce 在执行 job 的时候,不停地做持久化,每个 task 运行结束做一次,每个 job 运行结束做一次(写到 HDFS)。在 task 运行过程中,也不停地在内存和磁盘间 swap 来 swap 去。可是讽刺的是,Hadoop 中的 task 太傻,中途出错需要完全重新运行,比如 shuffle 了一半的数据存放到了磁盘,下次重新运行时仍然要重新 shuffle。Spark 好的一点原创 2021-06-15 20:26:25 · 1161 阅读 · 0 评论 -
Spark的shuffle优化、join优化、数据倾斜优化
Spark的shuffle优化shuffle定义及哪些操作产生shufflespark中的shuffle操作功能:将分布在集群中多个节点上的同一个key,拉取到同一个节点上,进行聚合或join操作,类似洗牌的操作。RDD的特性是不可变的带分区的记录集合,Spark提供了Transformation和Action两种操作RDD的方式。Transformation是生成新的RDD,包括map, flatMap, filter, union, sample, join, groupByKey, cogro原创 2021-06-12 14:29:01 · 4471 阅读 · 1 评论 -
Spark常见面试题
1、spark的有几种部署模式,每种模式特点?1)本地模式 Spark不一定非要跑在hadoop集群,可以在本地,起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地,一般都是为了方便调试,本地模式分三类 local:只启动一个executor local[k]:启动k个executor local[ * ]:启动跟cpu数目相同的 executor2)standalone模式 分布式部署集群,自带完整的服务,资源管理和任务监控是Spark自己监控,这个模式也是其他模原创 2021-06-12 11:33:59 · 589 阅读 · 0 评论 -
spark_core根据IP地址计算访问日志中每一个归属地的出现的次数
根据IP地址计算访问日志中每一个归属地的出现的次数#根据IP地址计算访问日志中每一个归属地的出现的次数(用累计器实现各个省份的访问次数)##实现object _09_IP { def main(args: Array[String]): Unit = { val sc: SparkContext = SparkUtils.getSparkContext //1.0.1.0|1.0.3.255|16777472|16778239|亚洲|中国|福建|福州||电信|350100|Chin原创 2021-06-11 21:03:07 · 1015 阅读 · 0 评论
分享