数据挖掘
草莓甜Swag
这个作者很懒,什么都没留下…
展开
-
吴恩达机器学习笔记——无监督学习与K-means
K-meas 算法概述随机生成K个点,称为聚类中心。K-means算法实际上是一个迭代算法,他有两步动作。在算法的最开始,随机初始化K个聚类中心,坐标位置分别为。第一步是簇分配,第二步是移动聚类中心。遍历图中的每一个点,判断点跟哪个聚类中心的距离更近,进而划分到这个聚类中心名下,并将聚类中心的下标赋给对应样本点的,这个步骤其实也是代价函数的最小化过程。然后对所有的样本点向量求平均值(忽...原创 2019-02-15 22:16:17 · 353 阅读 · 0 评论 -
吴恩达机器学习笔记——分类问题
是对应网易云课程吴恩达机器学习第七章的笔记。分类问题的引入待预测目标为离散,可以是二分类、多分类问题。如,其中0表示没有命中目标(负类),1表示命中目标(正类)。(非严格要求) 可以使用:线性回归拟合:设置分类器输出的阀值,如,横坐标对应的纵坐标高于0.5输出1,否则输出0。适用于正负样本在横轴上集中为两组的情况。算法的输出值可能远大于1或远小于0,具有数据集相关的偶然性,不是一个好的...原创 2019-02-10 13:19:24 · 320 阅读 · 0 评论 -
吴恩达机器学习笔记——降维与PCA算法
PCA算法是一种强大的无监督学习算法。降维与线性回归 降维的过程 最常用的算法是主成分分析算法(PCA)。降维将数据投影到一个k维度空间上(比如直线或平面)然后最小化投影误差的平方和。PCA算法降维时找到直线方向向量最小化偏差距离时使用的正交距离 (称为投影误差) 线性而回归问题是用最小代价拟合直线时使用的是竖直距离 同时 回归中横纵轴的地位是不同的 一个是标签一个是...原创 2019-02-16 21:42:38 · 442 阅读 · 0 评论 -
吴恩达机器学习笔记——正则化
是对应网易云课程吴恩达机器学习第八章的笔记。目前我们已经学习了线性回归和逻辑回归,过度拟合将影响这些算法的发挥。过度拟合两种极端情况:欠拟合:具有高偏差,如在线性回归中执拗的使用一条直线来拟合数据集。 过度拟合:扭曲的线,如线性回归中上下波动、逻辑回归中“处心积虑”的找到一个边界分开所有的数据,具有高方差,能拟合所有的数据,参数过多没有足够数据很好的拟合。代价函数为0,无法“泛化”...原创 2019-02-10 23:08:33 · 208 阅读 · 0 评论 -
Scikit中的特征选择,XGboost进行回归预测,模型优化
指路博客:https://blog.csdn.net/sinat_35512245/article/details/79668363转载 2019-03-09 22:35:20 · 7788 阅读 · 0 评论 -
数据挖掘常用模型
决策树转载于:http://www.cnblogs.com/pinard/p/6050306.html (楼主总结的很好,就拿来主义了,不顾以后还是多像楼主学习) 决策树算法在机器学习中算是很经典的一个算法系列了。它既可以作为分类算法,也可以作为回归算法,同时也特别适合集成学习比如随机森林。本文就对决策树算法原理做一个总结,上篇对ID3, C4.5的算法思想做了总结,下篇重点对CART...转载 2019-07-02 23:02:11 · 4452 阅读 · 0 评论