- 博客(25)
- 收藏
- 关注
原创 小白也能玩明白,海豚调度器DolphinScheduler 搭建改造可用单机版DS[实战]
小白也能玩明白,海豚调度器DolphinScheduler 搭建改造可用单机版DS[实战]
2024-09-09 20:06:20 1785
原创 一文了解TensorFlow是什么
图像识别和计算机视觉:TensorFlow提供了强大的图像处理和计算机视觉功能,如图像分类、目标检测、图像生成等。机器学习模型的训练和推理:TensorFlow提供了丰富的机器学习算法和模型,如神经网络、决策树、支持向量机等。自然语言处理(NLP):TensorFlow提供了处理文本数据的功能,如文本分类、情感分析、机器翻译等。总之,TensorFlow是一个功能强大且广泛应用于各种机器学习任务的框架,可以帮助用户快速构建、训练和部署机器学习模型。在会话中,可以对计算图中的节点进行计算和求值。
2024-11-27 09:59:23 348
原创 一文搞懂Windows Function 窗口函数
ProcessWindowFunction一次性迭代整个窗口里的所有元素,比较重要的一个对象是Context,可以获取到事件和状态信息,这样我们就可以实现更加灵活的控制,该算子会浪费很多性能,主要原因是不增量计算,要缓存整个窗口然后再去处理,所以要设计好内存。指在窗口触发的时候才会对窗口内的所有数据进行一次计算(等窗口的数据到齐,才开始进行聚合计算,可实现对窗口内的数据进行排序等需求)l 增量函数:窗口保存一份中间数据,每流入一个新元素,新元素与中间数据两两合一,生成新的中间数据。
2024-11-25 18:38:15 350
原创 一文看懂Flink四大基石之一Window
上图是窗口的生命周期示意图,假如我们设置的是一个10分钟的滚动窗口,第一个窗口的起始时间是0:00,结束时间是0:10,后面以此类推。滑动距离> 窗口长度,会漏掉数据,比如:每隔5分钟,统计前面1分钟的数据(滑动距离5分钟,窗口长度1分钟,漏掉4分钟的数据)这样的东西,没人用。滑动距离< 窗口长度,会重复处理数据,比如:每隔1分钟,统计前面5分钟的数据(滑动距离1分钟,窗口长度5分钟,重复处理4分钟的数据)]) 中的命令是可选的。窗口长度是1分钟,时间间隔是1分钟,所以这样的窗口就是滚动窗口。
2024-11-25 18:29:04 650
原创 模型训练,萌新学习ALS 推荐算法,讲解与使用(一学就废!)
Am*k X B k*n = Cm*n ----至于乘法的规则,是数学问题, 知道可以乘即可,不需要我们自己计算反过来Cm*n = Am*k X Bk*n ----至于矩阵如何拆分/如何分解,是数学问题,知道可以拆/可以分解即可。
2024-11-18 19:54:40 433 1
原创 报错Failed to find data source: kafka……“Structured Streaming + Kafka Integration Guide“.;解决方法
在Spark 3.0.0环境下运行StructuredStreaming程序时遇到版本不兼容错误,需要额外添加commons-pools2和spark-token-provider-kafka jar包。下载对应的jar包即可,比如我是SparkSql写入的Kafka,那么我就需要下载Spark-Sql-Kafka.x.x.x.jar。将这些 jar 包都下载下来,放入 pyspark 中的 jars 目录下,代码即可运行。解决:这个是因为缺少了Kafka和Spark的集成包,前往。
2024-11-18 19:44:08 157
原创 一键使用Kafka脚本,一键查看创建修改生产者消费者
使用时仅需修改bigdata为你的主机名,确保本机Kafka可以正常使用即可。Kafka使用时命令过于繁冗,此脚本用于Kafka的便捷使用。bigdata为主机名。
2024-11-11 18:48:47 156
原创 从零开始安装使用Kafka-Eagle 监控
Kafka-Eagle 框架可以监控 Kafka 集群的整体运行情况,在生产环境中经常使用。在生产过程中,想创建topic、查看所有topic、想查看某个topic 想查看分区等,都需要写命令,能不能有一个图形化的界面,让我们操作呢?
2024-11-11 18:42:40 669
原创 如何在DataGrip上使用hive的数据源编写Spark代码部署时常见的错误
上一篇种使用的时linux集群三台机器搭建了spark_Yarn模式以及hive远程模式。上一篇写了如何在DataGrip上使用hive的数据源编写Spark代码的部署流程。其次连接不上还可能是因为没有将spark下的hive-site.xml分发出去。可能的原因在hive下的hive-site.xml里就直接配置了。1.hive或者spark的安装配置有问题,须自行解决。运行以下代码启动spark远程服务的时候配置不会生效。其他机器上没有会导致连接不上hive的数据源。这个是连接的端口号配置有问题。
2024-11-06 19:56:27 138
原创 如何在DataGrip上使用hive的数据源编写Spark代码
Spark作为一个计算平台并不是作为一个数据库不像hive以及mysql一样可以直接远程连接DataGrip使用,本篇就展示如何使用DataGrip使用hive作为数据源编写Spark代码查询hive数据库。2. 运行spark-sql --master yarn --conf spark.sql.shuffle.partitions=2命令。2.将hive-site.xml 复制到 spark的conf 下。3.修改spark下的hive-site.xml。还可以编写简单的hive代码来测试。
2024-11-06 19:44:55 523
原创 SparkCore错误分享 Caused by: java.net.SocketException: Connection reset by peer: socket write error
今天用Pycharm写SparkCore的时候遇到了一个错误正常来看代码是没有什么问题的事实上代码确实没有问题那么问题出在那里了了解了一下在运行 pyspark 代码读取数据后,有时候会出现这个错误。原因是连接数过多,一般出现这个问题,都是本地 windows 运行 spark 代码,而读取的数据过多,另外就是代码中使用了 take() 这个算子,有两种办法:1、将数据量变小一点,只截取一部分进行测试2、不要使用take算子,结果集少的情况下使用foreach也可以查看
2024-10-31 19:06:27 186
原创 初次启动启动日志服务:sbin/start-history-server.sh时无法正常启动报错的解决
最近学了spark,启动日志服务:sbin/start-history-server.sh时一直报错,其他错误基本上都可以找得到,记录一个找了好久都找不到的错误以及解决方式。
2024-10-31 18:52:13 257
原创 Kettle Sqoon 数据表从mysql导入到hive的两种方法【实战】
这样传需要注意mysql表的字段名,不可以带.例如emp.empno如果带.的话会显示导入失败。第二个思路就是把mysql表的内容上传到hdfs上再把hdfs的上传的内容变成hive表。假如报:无法读取 hdfs://bigdata01:9820/home/aaaa 的问题。假如你使用了 hdfs 自带的文件夹,比如/home,会报没有权限的错误。1、查看本地是否配置了 HADOOP_HOME 的环境变量。第一个思路就是直接把一个mysql表导出成一个hive表。思路二需要先配置hdfs连接。
2024-09-12 20:33:18 360
原创 Kettle Sqoon 数据从mysql导入到hive时报错 mysql2hive - ERROR (version 9.1.0.0-324, build 9.1.0.0-324 from 2020
在.hiverc中添加set hive.stats.column.autogather=false;再次执行sqoon流程即可。可以在hive的conf中新建一个.hiverc文件作为hive启动后修改的配置。在Sqoon编写一个转换流程时,出现了以下错误。这个报错是hive设置的问题。
2024-09-12 20:15:03 289
原创 hive建表时使用JsonSerDe报Cannot Validate serde:org.openx.data.jsonserde.JsonSerDe
hive建表时使用JsonSerDe报Cannot Validate serde:org.openx.data.jsonserde.JsonSerDe
2024-08-26 15:33:15 272
原创 hive使用自带的json包报错Current token (VALUE_STRING) not numeric, can not use numeric value accessors
hive建表时使用自带的JsonSerDe包报错
2024-08-26 12:18:36 287
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人