项目介绍
文件TreeDB.csv包含258个树种的描述。数据由XX市议会开放空间和环境服务部管理处提供。已提供数据集作为公共空间最佳树木选择合作项目的一部分。假设你是该项目团队的一员。进一步假设你决定参与聚类分析是更好地理解数据集属性的一部分。为了这个练习你应该只考虑特征(属性)“高度”、“宽度”、“表面积”和“盐”。
-
描述您对此数据集的观察,例如示例的数量、特征的数量以及这些选定特征的含义。您还应该使用summary()函数来帮助您获得更多的理解。
-
绘制此数据集选定属性的散点图矩阵,以可视化四个属性之间的成对关系。
-
对所选属性执行K-means聚类分析并报告结果。并解释你选择的簇数。
-
对所选属性执行DBScan聚类并报告结果。解释如何选择参数Eps和minPts。
-
可视化聚类结果。
项目开始
- 读取数据并查看简介
task2 <- read.csv("TreeDB.csv")
summary(task2)
这个数据集中有258个例子。每个示例包含29个特征。高和宽代表树的宽和高;表面面积是与叶有关,盐是耐受性。高度、宽度和表面区域为数字数据类型。Salt是逻辑数据类型,它只包含“low”、“medium”和“high”三种值。
- 绘制此数据集选定属性的散点图矩阵,以可视化四个属性之间的成对关系。
library(plyr)
library(ggplot2)
library(cluster)
library(lattice)
library(graphics)
library(grid)
library(gridExtra)
feature_input = as.data.frame(task2)
feature_input$Salt = as.numeric(feature_input$Salt)
#更改Salt中的数据类型
feature_input