spark
文章平均质量分 67
流批处理框架
硅谷工具人
一颗么得灵魂的工具人,学废了。
展开
-
Spark项目通用开发框架
每个公司内部都有一套自己的架子,一般新人来了就直接在已有的架子上开发业务。以下仅仅作为记录下自己使用的架子,不作为任何推荐,也不认为这样的组织结构就是好用的。原创 2024-07-10 11:25:49 · 483 阅读 · 0 评论 -
【spark】Exception in thread “main“ ExitCodeException exitCode=-1073741701
添加了HADOOP_HOME环境变量,指向了window的hadoop环境。在window上运行spark程序写到本地文件的时候报错。然后再运行程序的时候报错的。安装好后,运行正常。原创 2024-07-10 10:49:29 · 471 阅读 · 0 评论 -
Spark项目Java和Scala混合打包编译
实际开发用有时候引用自己写的一些java工具类,但是整个项目是scala开发的spark程序,在项目打包时需要考虑到java和scala混合在一起编译。今天看到之前很久之前写的一些打包编译文章,发现很多地方不太对,于是重新整理更新如下。原创 2023-08-24 15:07:20 · 1622 阅读 · 0 评论 -
机器学习基础笔记
分类:识别图像动物 离散的聚类: 发掘兴趣爱好回归:预测股市价格 连续的逻辑回归朴素贝叶斯线性回归SVM决策树LDA矩阵分解保序回归的应用保序回归用于拟合非递减数据,不需要事先判断线性与否,只需数据总体的趋势是非递减的即可。例如研究某种药物的使用剂量与药效的关系。朴素贝叶斯算法是基于贝叶斯定理和特征条件独立假设的一种分类方法朴素贝叶斯算法是一种基于联合概率分布的统计学习简单的分类,通过划分“阈值”。原创 2023-08-12 17:54:09 · 971 阅读 · 0 评论 -
hive真实表空间大小统计
如果是采用hdfs上传加载的表、或者是flume直接写hdfs的表空间通常看hive的属性是不准确的。原创 2023-03-05 16:28:20 · 2442 阅读 · 0 评论 -
使用anaconda3安装pyspark
1. 下载安装:下载地址:wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.0.1-Linux-x86_64.sh --no-check-certificate(最新版本:wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anacon...原创 2022-03-19 22:44:00 · 1890 阅读 · 1 评论 -
spark中生成时间序列数据的函数stack和sequence
用Sequence函数生成时间序列函数,真的是非常简便易用,之前因为没找到,所以走了不少弯路。原创 2022-11-23 09:57:28 · 1840 阅读 · 0 评论 -
Spark中无穷大值Infinity替换
在pyspark中计算结果写入iceberg中时,遇到无穷大值infinity,前端无法展示,则需要替换。原创 2022-07-23 00:54:54 · 997 阅读 · 0 评论