数据来源:
决策树会用到基尼指数,信息增益等知识点,下面用R构建决策树:
注:
监督机器学习中会出现的问题:过拟合和欠拟合,偏差和方差
为了限制过拟合,可以限制生长,修剪树枝
其他分类器:KNN和随机森林
*[下一版我们将用KNN和随机森林进行数据分类]
1. #读取数据
2. >library(tree)
3. >data<-read.csv('data.csv')
4. #了解数据特征
5. >View(data)
6. >str(data)
7. >table(data$是否预定)
8. #将数据分为测试集和训练集,70:30
9. > set.seed(2134)
10. > ind<-sample(2,nrow(data),replace=TRUE,prob=c(0.7,0.3))
11. > train_set<-data[ind==1,]
12. > test_set<-data[ind==2,]
13. > nrow(train_set)
14. [1] 27
15. > nrow(test_set)
16. [1] 11
17. #使用tree函数构建决策树模型
18. > #build decision tree model using tree()
19. > str(data)
20. 'data.frame': 38 obs. of 6 variables:
21. $ 性别 : Factor w/ 2 levels "男","女": 1 1 2 2 1 2 1 2 2 1 ...
22. $ 年龄 : Factor w/ 3 levels "00后","80后",..: 3 1 3 3 3 2 3 3 3 3 ...
23. $ 价格敏感 : Factor w/ 2 levels "否","是": 1 1 2 2 1 1 2 1 1 1 ...
24. $ 是否连住 : Factor w/ 2 levels "否","是": 1 1 1 2 2 1 1 2 1 1 ...