机器学习
数据孤岛
这个作者很懒,什么都没留下…
展开
-
Python——机器学习之决策树、随机森林、极限森林简单理解
决策树熵定义为信息的期望值为了好理解分类数目,熵越大,随机变量的不确定性就越大。随机森林(Random Forests)随机森林是一种重要的基于Bagging的集成学习方法,可以用来做分类、回归等问题。随机森林有许多优点:具有极高的准确率随机性的引入,使得随机森林不容易过拟合随机性的引入,使得随机森林有很好的抗噪声能力能处理很高维度的数据,并且不用做特征选择既能处理离散型数据,也能处理连续型数据,数据集无需规范化训练速度快,可以得到变量重要性排序容易实现并行化随机森林的缺点原创 2020-11-10 23:36:19 · 1568 阅读 · 0 评论 -
Python——机器学习之近邻算法(KNN)
近邻算法——K-NearestNeighbor如果一个待分类样本在特征空间中的k个最相似(即特征空间中K近邻)的样本中的大多数属于某一个类别,则该样本也属于这个类别,即近朱者赤,近墨者黑,这是一种监督学习。例如:在黑实线的圆圈内(只选3个邻居),有两个红三角一个蓝方块,那么系统认为?就是红三角在黑虚线的圆圈内(只选5个邻居),有两个红三角三个蓝方块,那么系统认为?就是蓝方块所以定的邻居数(n_neighbors)会影响最终的判断n_neighbors过大会使xun’lian’mo此外,距离度原创 2020-11-04 22:38:40 · 397 阅读 · 1 评论