sklearn_什么都一般的咸鱼的博客-CSDN博客

sklearn

关注

关注数：文章数：5 文章阅读量：2996 文章收藏量：8

作者: 什么都一般的咸鱼

一个正在入门深度学习的暂时头发茂盛的小白。更博很慢很慢，博文以实用和工程能力为主，致力于成为一位工程能力特别特别特别强的咸鱼。欢迎关注，有什么问题我会尽力去回答帮助。 GitHub：https://github.com/ooooxianyu

展开

[机器学习 05] 无监督学习（聚类，降维）-sklearn

无监督学习1. 聚类2. 降维

原创 2020-07-01 11:37:16 · 996 阅读 · 0 评论
[机器学习 04] 树，集成学习-sklearn

树特点：树结构清晰，而且运算快。关键问题：树的构建。缺点：树的能力太强，一般都会过拟合。——特征一层一层划分，可以把所有特征分完，因此所以有的特征都会被分到最细，因此会造成数据过拟合。也因此，树可以剪枝。1. 决策树（1）决策树是一种分类树。（2）基础知识：① 熵：信息的不确定性。（熵的最大化，可以达到最大的探索能力，即信息量越大，遇到的可能性越多。）② 条件熵：再已知随机变量X的条件下，随机变量Y的不确定性。就是说，我们在不知道任何事情的情况下，不确定性最大，也就是信息量最多，当某事发生

原创 2020-06-30 20:52:19 · 254 阅读 · 0 评论
[机器学习 02] 分类算法-sklearn

机器学习：分类1. K近邻（KNN）原理：距离预测点最近的前K个点中最多的类别作为该预测点的类别。（距离：欧式距离）算法简单，但是计算耗时。在数据量多，特征高阶的情况下，性能低且效果不好。2. KD-Tree简化KNN的计算。（KNN需要遍历所有的点取得所有点的距离。）KD-Tree用二叉排序树，点之间的距离只需要通过在二次查找树上做查询。缩小了时间复杂度。O(logn)树的构建和查找可看这篇文章回溯：检查其父节点核兄弟节点与该查找到叶子节点的距离相比较，在有限次回溯后找到最近的点。3

原创 2020-06-22 20:24:12 · 270 阅读 · 0 评论
[机器学习 01] 回归算法-sklearn

机器学习：回归1. 线性回归有一组数据：（x，y）找出一个线性方程，使得数据到线上的距离总和最小。距离最小化：梯度下降法/最小二乘法……对于普通最小二乘的系数估计问题，其依赖于模型各项的相互独立性。当各项是相关的，且设计矩阵的各列近似线性相关，那么，设计矩阵会趋向于奇异矩阵，这种特性导致最小二乘估计对于随机误差非常敏感，可能产生很大的方差，W过大，就会导致模型过拟合。（即，输入的数据的特征之间，越独立越好）2. 岭回归加了个L2正则项来约束w，使得w尽量小。（防止过拟合）α是正则项的系数。

原创 2020-06-22 16:26:27 · 1215 阅读 · 0 评论
[机器学习 03] 数据预处理-sklearn

数据预处理1. 观察数据（1）明确数据有多少特征/属性，哪些是连续的，哪些是类别（离散）的。（2）检测数据有无缺失，对缺失的特征选择恰当的方式进行填补，使得数据完整。（3）对连续的数值型特征进行标准化，使得均值为0，方差为1.（4）对类别型的特征进行one-hot编码。（5）将需要转换成类别型的连续型数据进行二值化。（6）为了防止过拟合或者其他原因，考虑是否对数据进行正则化。（7）在对数据进行初探以后，发现效果不佳，可以尝试使用多项式方法，寻找非线性的关系。（8）根据实际问题分析是否需要

原创 2020-06-22 20:51:53 · 262 阅读 · 0 评论

sklearn

作者: 什么都一般的咸鱼

[机器学习 05] 无监督学习（聚类，降维）-sklearn

[机器学习 04] 树，集成学习-sklearn

[机器学习 02] 分类算法-sklearn

[机器学习 01] 回归算法-sklearn

[机器学习 03] 数据预处理-sklearn