![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 57
Spark 工作经验总结
枇杷鹭
留下学习的痕迹。
展开
-
Spark 自己实现分箱逻辑遇到的坑
说一所小学有好几个班级,现在要 以班级为单位 给孩子们按照身高进行排序,并且记录下来。问题就是,全学校只有一条测身高的尺子,而且因为孩子们过于顽劣等主客观因素,测量身高、按身高排序、登记身高这些过程,必须在一间教室里进行。 没有被轮到测量的班级,就在操场活动。原创 2021-07-21 09:18:23 · 668 阅读 · 2 评论 -
在 spark pipeline 中加入已训练模型(以 离散化编码 ValueIndexerModel 为例)
现在有个需求,对于“将职业离散化”这个过程,我已经有了一套标准,该怎么办呢?举个例子,假设有职业列有三个值:`学生`、`工作`以及`未知`。如果将离散化交给 Spark ,那么,我们可能得到 `学生0` `工作1` `未知2` 或者 `学生1` `工作2` `未知0` 等不确定的编码。现在业务上要求必须使用一套确定的编码,该怎么办呢?原创 2022-02-10 20:03:09 · 1683 阅读 · 0 评论 -
Windows 运行 spark-hadoop 报错 java.io.IOException: (null) entry in command string: null chmod 0644
这个很简单,去 https://github.com/cdarlint/winutils 这里找到你的对应版本,用其中的 bin 代替你本地的 bin 。然后配置环境变量 %HADOOP_HOME% 以及 PATH+=%HADOOP_HOME%/bin 。原创 2022-02-10 17:15:05 · 1857 阅读 · 1 评论 -
Spark 训练机器学习模型莫名报错(java.lang.stackoverflow)
归根结底是当时不了解 Spark 原理。原创 2022-02-09 11:45:13 · 916 阅读 · 0 评论 -
将本地 jar 安装到本地 maven 仓库
mvn install:install-file 使用示例。原创 2022-02-09 10:58:11 · 1405 阅读 · 0 评论