- 博客(10)
- 收藏
- 关注
原创 Hadoop小文件优化
1、小文件多会占用大量NameNode的内存空间(每个元数据的大小约150byte)2、元数据文件过多,使得寻址索引速度变慢3、小文件过多启动MapTask数量多,有可能处理时间比启动时间还短,白白消耗资源。
2023-05-05 12:11:17 163
原创 MapReduce框架
C、如果ReduceTask数量=1,则不管MapTask输出多少个分区文件,最终结果只有一个ReduceTask,只会产生一个结果文件。(分区数不大于1,不会走默认hash分区器和自定义分区器,直接返回)A、MapTask以分区为单位进行合并,对所有临时文件合并成一个大文件(output/file.out),同时生成相应索引文件(output/file.out.index)E、如果分区数不是1,但ReduceTask为1,不执行分区过程(执行分区的前提是判断ReduceNum个数是否大于1)
2023-05-05 11:24:50 1728 1
原创 机器学习-PCA实战
PCA实战task:1、基于iris_data.csv数据,建立KNN模型实现数据分类(n_neighbors=3)2、对数据进行标准化处理,选取一个维度可视化处理后的效果3、进行与原数据等维度PCA,查看各主成分的方差比例4、保留合适的主成分,可视化降维后的数据5、基于降维后数据建立KNN模型,与原数据表现进行对比2.建立KNN模型实现数据分类0.96(150, 4)5.843333333333335 0.8280661279778629 -4.736951571734001e-1
2023-04-24 10:28:17 237 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人