数据科学与大数据分析之项目2-聚类

最新推荐文章于 2024-04-02 18:37:17 发布

Jifu_M

最新推荐文章于 2024-04-02 18:37:17 发布

阅读量733

点赞数

分类专栏：数据科学与大数据分析项目练习文章标签：数据分析可视化

本文链接：https://blog.csdn.net/Jifu_M/article/details/112104404

版权

聚类

项目介绍
项目开始

项目介绍

文件TreeDB.csv包含258个树种的描述。数据由XX市议会开放空间和环境服务部管理处提供。已提供数据集作为公共空间最佳树木选择合作项目的一部分。假设你是该项目团队的一员。进一步假设你决定参与聚类分析是更好地理解数据集属性的一部分。为了这个练习你应该只考虑特征（属性）“高度”、“宽度”、“表面积”和“盐”。

描述您对此数据集的观察，例如示例的数量、特征的数量以及这些选定特征的含义。您还应该使用summary（）函数来帮助您获得更多的理解。
绘制此数据集选定属性的散点图矩阵，以可视化四个属性之间的成对关系。
对所选属性执行K-means聚类分析并报告结果。并解释你选择的簇数。
对所选属性执行DBScan聚类并报告结果。解释如何选择参数Eps和minPts。
可视化聚类结果。

项目开始

读取数据并查看简介

task2 <- read.csv("TreeDB.csv")
summary(task2)

在这里插入图片描述
这个数据集中有258个例子。每个示例包含29个特征。高和宽代表树的宽和高；表面面积是与叶有关，盐是耐受性。高度、宽度和表面区域为数字数据类型。Salt是逻辑数据类型，它只包含“low”、“medium”和“high”三种值。

绘制此数据集选定属性的散点图矩阵，以可视化四个属性之间的成对关系。

library(plyr)
library(ggplot2)
library(cluster)
library(lattice)
library(graphics)
library(grid)
library(gridExtra)

feature_input = as.data.frame(task2)
feature_input$Salt = as.numeric(feature_input$Salt)
#更改Salt中的数据类型
feature_input