自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 Spark KMeans聚类算法-鸢尾花聚类

【代码】Spark KMeans聚类算法-鸢尾花聚类。

2023-09-04 22:01:33 124 1

原创 Spark逻辑回归分类算法-泰坦尼克号生还预测

【代码】Spark逻辑回归分类算法-泰坦尼克号生还预测。

2023-09-04 17:21:11 162 1

原创 Spark协同过滤ALS算法-电影评分预测

【代码】Spark协同过滤ALS算法-电影评分预测。

2023-09-04 14:15:54 145 1

原创 Spark逻辑回归分类算法-鸢尾花分类

【代码】Spark逻辑回归分类算法-鸢尾花分类。

2023-09-04 14:13:25 139 1

原创 Spark线性回归算法-波士顿房价预测

【代码】Spark线性回归算法-波士顿房价预测。

2023-09-04 14:11:08 252 1

原创 Spark MLlib中协同过滤推荐算法ALS

【代码】Spark MLlib中协同过滤推荐算法ALS。

2023-09-02 21:54:51 163

原创 Spark工具类

spark开发相关的工具类

2023-09-01 17:09:16 40 1

原创 Hadoop小文件优化

1、小文件多会占用大量NameNode的内存空间(每个元数据的大小约150byte)2、元数据文件过多,使得寻址索引速度变慢3、小文件过多启动MapTask数量多,有可能处理时间比启动时间还短,白白消耗资源。

2023-05-05 12:11:17 163

原创 MapReduce框架

C、如果ReduceTask数量=1,则不管MapTask输出多少个分区文件,最终结果只有一个ReduceTask,只会产生一个结果文件。(分区数不大于1,不会走默认hash分区器和自定义分区器,直接返回)A、MapTask以分区为单位进行合并,对所有临时文件合并成一个大文件(output/file.out),同时生成相应索引文件(output/file.out.index)E、如果分区数不是1,但ReduceTask为1,不执行分区过程(执行分区的前提是判断ReduceNum个数是否大于1)

2023-05-05 11:24:50 1728 1

原创 机器学习-PCA实战

PCA实战task:1、基于iris_data.csv数据,建立KNN模型实现数据分类(n_neighbors=3)2、对数据进行标准化处理,选取一个维度可视化处理后的效果3、进行与原数据等维度PCA,查看各主成分的方差比例4、保留合适的主成分,可视化降维后的数据5、基于降维后数据建立KNN模型,与原数据表现进行对比2.建立KNN模型实现数据分类0.96(150, 4)5.843333333333335 0.8280661279778629 -4.736951571734001e-1

2023-04-24 10:28:17 237 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除