人工智能入门课程学习（9）——集成算法

最新推荐文章于 2024-01-21 03:44:56 发布

ICoder_Next

最新推荐文章于 2024-01-21 03:44:56 发布

阅读量600

点赞数

分类专栏：人工智能文章标签：机器学习

本文链接：https://blog.csdn.net/qq_36079912/article/details/106104986

版权

人工智能专栏收录该内容

11 篇文章 5 订阅

订阅专栏

文章目录

1.集成算法介绍
- 1.2 机器学习中的两个核心任务
- 1.3 集成学习中boosting和Bagging
2.Bagging与随机森林
3.Boosting
4.总结

1.集成算法介绍

在这里插入图片描述
集成学习通过建立几个模型来解决单一预测问题。它的工作原理是生成多个分类器/模型，各自独立地学习和作出预测。这些预测最后结合成组合预测，因此优于任何一个单分类的做出预测。

1.2 机器学习中的两个核心任务

在这里插入图片描述

1.3 集成学习中boosting和Bagging

在这里插入图片描述
只要单分类器的表现不太差，集成学习的结果总是要好于单分类器的.

2.Bagging与随机森林

2.1 Bagging集成原理

在这里插入图片描述

2.2 随机森林的构造过程

在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。
随机森林 = Bagging + 决策树
在这里插入图片描述
随机森林够造过程中的关键步骤（用N来表示训练用例（样本）的个数，M表示特征数目）：

1）一次随机选出一个样本，有放回的抽样，重复N次（有可能出现重复的样本）
2）随机去选出m个特征, m <<M，建立决策树

2.3 随机森林API介绍

sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion=’gini’, max_depth=None, bootstrap=True, random_state=None, min_samples_split=2)

2.4 随机森林预测泰坦尼克号的生存率

# 1.数据的获取
data = pd.read_csv("http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt")

data.head()

# 2.数据的基本处理
# 2.1 确定要处理的特征值与目标值
x = data[['pclass','age','sex']]
y = data['survived']
# 2.2 数据缺失值的处理 年龄列里边才有缺失值的存在
x['age'].fillna(x['age'].mean(),inplace=True)

x.head()

# 数据集的划分
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.2)

x_train.head()

# 3.特征工程  将数组特征转换成字典特征
transfer = DictVectorizer(sparse=False)

x_train = transfer.fit_transform(x_train.to_dict(orient="records"))
x_test = transfer.transform(x_test.to_dict(orient="records"))


# 4.机器学习
# 4.1 建立模型
estimator = RandomForestClassifier(n_estimators=100,criterion="entropy",max_depth=5)
# 训练模型
estimator.fit(x_train,y_train)

# 模型评估    准确率
estimator.score(x_test,y_test)