sklearn
什么都一般的咸鱼
一个正在入门深度学习的暂时头发茂盛的小白。
更博很慢很慢,博文以实用和工程能力为主,致力于成为一位工程能力特别特别特别强的咸鱼。
欢迎关注,有什么问题我会尽力去回答帮助。
GitHub:https://github.com/ooooxianyu
展开
-
[机器学习 05] 无监督学习(聚类,降维)-sklearn
无监督学习1. 聚类2. 降维原创 2020-07-01 11:37:16 · 996 阅读 · 0 评论 -
[机器学习 04] 树,集成学习-sklearn
树特点:树结构清晰,而且运算快。关键问题:树的构建。缺点:树的能力太强,一般都会过拟合。——特征一层一层划分,可以把所有特征分完,因此所以有的特征都会被分到最细,因此会造成数据过拟合。也因此,树可以剪枝。1. 决策树(1)决策树是一种分类树。(2)基础知识:① 熵:信息的不确定性。(熵的最大化,可以达到最大的探索能力,即信息量越大,遇到的可能性越多。)② 条件熵:再已知随机变量X的条件下,随机变量Y的不确定性。就是说,我们在不知道任何事情的情况下,不确定性最大,也就是信息量最多,当某事发生原创 2020-06-30 20:52:19 · 254 阅读 · 0 评论 -
[机器学习 02] 分类算法-sklearn
机器学习:分类1. K近邻 (KNN)原理:距离预测点最近的前K个点中最多的类别作为该预测点的类别。(距离:欧式距离)算法简单,但是计算耗时。在数据量多,特征高阶的情况下,性能低且效果不好。2. KD-Tree简化KNN的计算。(KNN需要遍历所有的点取得所有点的距离。)KD-Tree用二叉排序树,点之间的距离只需要通过在二次查找树上做查询。缩小了时间复杂度。O(logn)树的构建和查找可看这篇文章回溯:检查其父节点核兄弟节点与该查找到叶子节点的距离相比较,在有限次回溯后找到最近的点。3原创 2020-06-22 20:24:12 · 270 阅读 · 0 评论 -
[机器学习 01] 回归算法-sklearn
机器学习:回归1. 线性回归有一组数据:(x,y)找出一个线性方程,使得数据到线上的距离总和最小。距离最小化:梯度下降法/最小二乘法……对于普通最小二乘的系数估计问题,其依赖于模型各项的相互独立性。当各项是相关的,且设计矩阵的各列近似线性相关,那么,设计矩阵会趋向于奇异矩阵,这种特性导致最小二乘估计对于随机误差非常敏感,可能产生很大的方差,W过大,就会导致模型过拟合。(即,输入的数据的特征之间,越独立越好)2. 岭回归加了个L2正则项来约束w,使得w尽量小。(防止过拟合)α是正则项的系数。原创 2020-06-22 16:26:27 · 1215 阅读 · 0 评论 -
[机器学习 03] 数据预处理-sklearn
数据预处理1. 观察数据(1)明确数据有多少特征/属性,哪些是连续的,哪些是类别(离散)的。(2)检测数据有无缺失,对缺失的特征选择恰当的方式进行填补,使得数据完整。(3)对连续的数值型特征进行标准化,使得均值为0, 方差为1.(4)对类别型的特征进行one-hot编码。(5)将需要转换成类别型的连续型数据进行二值化。(6)为了防止过拟合或者其他原因,考虑是否对数据进行正则化。(7)在对数据进行初探以后,发现效果不佳,可以尝试使用多项式方法,寻找非线性的关系。(8)根据实际问题分析是否需要原创 2020-06-22 20:51:53 · 262 阅读 · 0 评论