spark
文章平均质量分 81
cdh - spark
红尘丶世界
从来如此,便是对么?
展开
-
Spark读写ES数据时遇到的问题总结
文章目录1. pom(1). 依赖(2). 仓库2. 问题一(1). 异常详情(2). 解决方法(3). 代码示例3. 问题二(1). 异常详情(2). 解决方法(3). 代码示例1. pom(1). 依赖 <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core --> <dependency> <groupId>org.apache原创 2021-03-16 12:36:57 · 4512 阅读 · 0 评论 -
一个关于流处理的坑 Task not serializable
错误详情Exception in thread "main" org.apache.flink.api.common.InvalidProgramException: Task not serializable at org.apache.flink.api.scala.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:408) at org.apache.flink.api.scala.ClosureCleaner$.org$apache原创 2020-09-29 07:57:53 · 2297 阅读 · 0 评论 -
spark Caused by: java.lang.ClassNotFoundException: libsvm.DefaultSource
今天学习spark-mlib时报错说找不到libsvm.DefaultSource详情如下:Exception in thread "main" java.lang.ClassNotFoundException: Failed to find data source: libsvm. Please find packages at http://spark.apache.org/third-party-projects.html at org.apache.spark.sql.execution.da原创 2020-06-19 17:43:42 · 836 阅读 · 1 评论 -
spark 数据写入HBase时内存溢出了 java.lang.OutOfMemoryError: Unable to acquire 60 bytes of memory, got 0
错误详情java.lang.OutOfMemoryError: Unable to acquire 60 bytes of memory, got 0 at org.apache.spark.memory.MemoryConsumer.allocatePage(MemoryConsumer.java:127) at org.apache.spark.util.collection.unsafe.sort.UnsafeExternalSorter.acquireNewPageIfNecessary(Un原创 2020-06-15 22:29:06 · 1233 阅读 · 0 评论 -
SparkSql 思维导图整理
部分详情自己整理的一份SparkSql 思维导图,后续还会有其它的思维导图分享,敬请期待!!!提取地址:链接: https://pan.baidu.com/s/1f3pMedHHnZII65AJwFx9dQ 提取码: qhjq 最后也就是最重要的一点: 制作不易,可以的话三连走一波!!!给个点赞关注加收藏!!!...原创 2020-05-19 20:59:11 · 558 阅读 · 0 评论 -
Structured Streaming 思维的导图整理
部分详情如下:自己整理的一份spark_streaming 思维导图,后续还会有其它的思维导图分享,尽请期待!!!提取地址:链接: https://pan.baidu.com/s/1eEQImw46XijcqWRuCU7KTg 提取码: piae最后也就是最重要的一点: 制作不易,可以的话三连走一波!!!给个点赞关注加收藏!!!...原创 2020-05-11 23:48:02 · 468 阅读 · 0 评论 -
spark sparkStreaming思维导图
大纲如下:部分详情如下: 自己整理的一份spark_streaming 思维导图,后续还会有其它的思维导图分享,尽请期待!!! 如有需要原文件欢迎给我浏览,留下邮箱等联系方式!!!最后也就是最重要的一点: 制作不易,可以的话给个点赞关注加收藏!!!...原创 2020-05-11 22:26:25 · 645 阅读 · 0 评论 -
spark sql 和 hive 中求一个日期星期几
今天使用sparksql 求星期几,找了很多方法比较麻烦,还有用case的,最后总结出两种简单的,记录一下在低版本的spark sql 和hive 中求一个日期星期几 select 7- datediff(next_day(date,"Sunday"),date); select date_format(date ,'u');hive 2.2.0以后的版本使用dayofweek(d...原创 2020-04-28 11:48:34 · 2211 阅读 · 0 评论 -
Spark SQL 的开窗函数
文章目录1. 介绍2. 聚合函数和开窗函数的对比3. 开窗函数分类3.1 聚合开窗函数3.2 排序开窗函数4. 开窗函数示例1. 聚合开窗函数示例5. 排序开窗函数5.1 `ROW_NUMBER`顺序排序5.2 `RANK`跳跃排序5.3 DENSE_RANK连续排序5.4 NTILE分组排名1. 介绍开窗函数的引入是为了既显示聚集前的数据,又显示聚集后的数据。即在每一行的最后一列添加聚合函...原创 2020-04-27 08:27:04 · 518 阅读 · 0 评论 -
Struct Streaming 实例三 指定输出格式
文章目录数据如下题目如下第1题第2.1题第2.2题第3题数据如下链接: https://pan.baidu.com/s/1KrG0q0rhFM450H1in3og3g 提取码: 8ysc 题目如下1、使用Structured Streaming读取Socket数据,把单词和单词的反转组成 json 格式写入到当前目录中的file文件夹中2、请使用Structured Streamin...原创 2020-04-20 08:06:56 · 505 阅读 · 0 评论 -
structStreaming 实例二从Kafka 中读取数据保存到mysql中
文章目录依赖主类保存数据依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLoc...原创 2020-04-17 22:07:03 · 826 阅读 · 0 评论 -
使用Spark Streaming从kafka中读取数据把数据写入到mysql 实例
文章目录一、 题目题目和数据二、 pom依赖三、建表语句四、 连接kafka配置类五、 自定义分区类六、 读取数据并发送数据七、 消费数据,把数据存储到mysql一、 题目题目和数据链接: https://pan.baidu.com/s/1YVvhqy1u9rILqQWzJnNoVA 提取码: twt31、以下是RNG S8 8强赛失败后,官微发表道歉微博下一级评论1.1、在kafa...原创 2020-04-17 08:45:32 · 3939 阅读 · 1 评论 -
Spark StructStreaming实例一
文章目录项目依赖1. socket 方式读取nc中的访问2.读取json3. 集成kafka项目依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSch...原创 2020-04-16 21:42:22 · 423 阅读 · 0 评论 -
sparkSQL 在idea使用UDAF函数,项目实例
文章目录一、 说明1.spark 已经整合过hive (没整合过可以参考以下链接)二、创建maven项目导入pom 文件三、项目准备工作准备工作做完之后效果图如下![在这里插入图片描述](https://img-blog.csdnimg.cn/20200415085945539.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,s...原创 2020-04-15 09:44:14 · 410 阅读 · 0 评论 -
sparkSQL 整合hive
文章目录一、环境的配置1. Hive开启MetaStore服务在 $HIVE_HOME/conf/hive-site.xml中添加如下配置2. 启动 metaStore 和 hiveserver23. SparkSQL整合Hive MetaStore拷贝 Hadoop 和 Hive 的配置文件到 Spark 的配置目录4. 把连接mysql 依赖的jar拷贝到 $SPARK_HOME/jars/ ...原创 2020-04-15 08:36:04 · 281 阅读 · 0 评论 -
expression 'pay.`pay_channel`' is neither present in the group by, nor is it an aggregate function.
报错详情Exception in thread "main" org.apache.spark.sql.AnalysisException: expression 'pay.`pay_channel`' is neither present in the group by, nor is it an aggregate function. Add to group by or wrap in f...原创 2020-04-09 10:06:18 · 5847 阅读 · 4 评论 -
Spark集群配置 和 Spark HA 集群配置 以及 Spark on yarn 模式
文章目录安装前说明配置spark1. 上传解压2. 配置环境变量3.修改spark 的 配置1. 修改 spark-env.sh 文件2. 在spark-env.sh文件中添加如下内容3. 修改slaves 文件4. 在slaves 文件中添加要工作的节点(IP地址)5. 分发到其它节点(hadoop01执行)启动 和 关闭 spark 集群查看web界面测试1. 创建words 文件(博主实在o...原创 2020-04-02 13:31:16 · 873 阅读 · 2 评论