一、相关数据
数据集下载:https://archive.ics.uci.edu/ml/datasets/Connectionist+Bench+(Sonar,+Mines+vs.+Rocks)
注:下载 sonar.all-data并重命名为sonar.all-data.csv 增加后缀改变文件格式,放到project
用excel打开数据集,有208行60列特征(值域为0到1),标签为R/M。表示208个观察对象,60个不同角度返回的力度值,二分类结果是岩石/金属。
参考程序:https://blog.csdn.net/QcloudCommunity/article/details/79363040
注:from csv import reader 连接中少了个r
参考程序2:http://www.yw1515.com/news/2018-04-06/118700.html
二、RF的来源
决策树方差高——引入bagging降低方差——bagging下的树相似,预测相似——引入列采样(本例中采用特征数的平方根)
bagging低方差——使用的决策树需低偏差,要深
三、各函数功能
load_csv:读取csv文件,按行保存到数组dataset中。
str_column_to_float:将某列字符去掉前后空格,并转换为浮点数格式
str_column_to_int:根据分类种类建立字典,标号0,1,2...将字符列转化为整数
cross_validation_split