![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
Machine Learning基础
小风_
致力于严谨、有趣的AI算法
展开
-
利用python实现多元线性回归确定喷墨大师的命中方向
喷墨大师是玩吧app的一款小游戏,两只章鱼相互用墨汁进行投射对战,利用风力、角度、力度、距离四个因素向敌方进行投射,命中后会对敌方造成一定的血量损失,直到地方血量为0即可获得胜利一、游戏介绍,变量设置如图所示,玩家获得胜利,需要调节对角度和力量进行调节,风力在每一局都是随机产生,距离会根据敌我双方投射命中后逐步增大。每一局只能使用3次技能,3个不同的技能,技能2和技能3buff一样,都是增...原创 2020-03-02 14:25:17 · 1295 阅读 · 0 评论 -
《机器学习实战》 第十四章【利用SVD简化数据】
奇异值分解(Singular Value Decomposition)是线性代数中一种重要的矩阵分解,奇异值分解则是特征分解在任意矩阵上的推广。在信号处理、统计学等领域有重要应用。——百度百科目录算法描述优缺点算法思路一个栗子算法描述优缺点优点:简化数据、去除噪声、提高算法效果缺点:数据的转换可能难以理解适用数据类型:数值型数据算法思路很多情况下,数据中的一小段携带了数据...原创 2019-11-16 00:06:57 · 201 阅读 · 0 评论 -
《机器学习实战》 第十三章【利用PCA来简化数据】
PCA(principal components analysis)即主成分分析技术,又称主分量分析。主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。在统计学中,主成分分析PCA是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次...原创 2019-11-15 23:46:32 · 322 阅读 · 0 评论 -
《机器学习实战》 第十二章【使用FP-growth算法来高效发现频繁项集】
FP-Growth算法是韩嘉炜等人在2000年提出的关联分析算法,它采取如下分治策略:将提供频繁项集的数据库压缩到一棵频繁模式树(FP-tree),但仍保留项集关联信息。在算法中使用了一种称为频繁模式树(Frequent Pattern Tree)的数据结构。FP-tree是一种特殊的前缀树,由频繁项头表和项前缀树构成。FP-Growth算法基于以上的结构加快整个挖掘过程。——百度百科目...原创 2019-11-12 21:20:45 · 366 阅读 · 0 评论 -
《机器学习实战》 第十一章【使用Apriori算法进行关联分析】
Apriori算法是第一个关联规则挖掘算法,也是最经典的算法。它利用逐层搜索的迭代方法找出数据库中项集的关系,以形成规则,其过程由连接(类矩阵运算)与剪枝(去掉那些没必要的中间结果)组成。该算法中项集的概念即为项的集合。包含K个项的集合为k项集。项集出现的频率是包含项集的事务数,称为项集的频率。如果某项集满足最小支持度,则称它为频繁项集。——百度百科目录算法描述优缺点一般过程相关概念算法原...原创 2019-11-08 15:58:03 · 522 阅读 · 0 评论 -
《机器学习实战》 第十章【聚类:k-均值聚类算法】
这一章开始聚类算法的总结,聚类算法是无监督学习的一种无监督学习中,类似分类和回归中的目标变量事先是不存在的所谓聚类就是在这些不知目标变量的情况下,找寻数据之间的关系,可以如何分类,分为多少数据簇聚类会把相似对象归为同一个簇中,簇内对象越相似,聚类效果越好所谓k均值聚类,就是分为k个簇,也就是k个分类目录算法描述优缺点一般流程算法伪代码适用后处理提高聚类性能二分k-均值算法伪代码一个栗子...原创 2019-11-04 17:34:59 · 388 阅读 · 0 评论 -
《机器学习实战》 第九章【树回归】
目录算法描述CART算法一般流程算法描述实际生活中的很多问题都是非线性的,不可能使用全局线性模型来进行拟合数据,有一种方法是将数据集切分成为很多份易于建模的数据,然后再利用上一节所使用的方法,线性回归技术,来进行建模,如果首次切分后还是很难以拟合线性模型,我们就继续进行切分。使用树回归发给发就比较有用。CART算法一般流程收集数据:...原创 2019-11-01 14:36:33 · 202 阅读 · 0 评论 -
《机器学习实战》 第八章【预测数值型数据:(线性)回归】
目录算法简述优缺点回归的一般方法线性回归:1.标准线性回归(LR)2.局部加权线性回归(LWLR)3.岭回归4.lasso5.前向逐步回归算法简述优缺点优点:结果易于理解,计算上不复杂缺点:对非线性的数据拟合不好使用数据类型:数值型和标称型回归的一般方法收集数据:任意方法准备数据:数值型,标称型转二值型分析数据:可视化二维图训练算法:找回归系数测试算法:R2或其他使用...原创 2019-10-30 13:13:26 · 322 阅读 · 0 评论 -
《机器学习实战》 第七章【AdaBoost元算法】
Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)百度链接目录算法描述算法简述弱分类器bagging、boosting优缺点一般流程一个栗子引子元算法,我们在做十分重要的决定时,一般会寻求不是一个人而是多个专家的意见,这就是元算法(meta-algorithm)背后的思路,而AdaB...原创 2019-10-22 23:21:57 · 351 阅读 · 0 评论 -
《机器学习实战》 第六章【支持向量机】
支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier),其决策边界是对学习样本求解的最大边距超平面(maximum-margin hyperplane) [1-3] 。这一知识点我花了零零散散的时间看了三天,在理论上还是...原创 2019-10-19 17:08:02 · 263 阅读 · 0 评论 -
【数学基础】拉格朗日乘数法
在数学最优问题中,拉格朗日乘数法(以数学家约瑟夫·路易斯·拉格朗日命名)是一种寻找变量受一个或多个条件所限制的多元函数的极值的方法。这种方法将一个有n 个变量与k 个约束条件的最优化问题转换为一个有n + k个变量的方程组的极值问题,其变量不受任何约束。这种方法引入了一种新的标量未知数,即拉格朗日乘数:约束方程的梯度(gradient)的线性组合里每个向量的系数。 [1] 此方法的证明牵涉到偏...原创 2019-10-19 16:40:39 · 667 阅读 · 0 评论 -
《机器学习实战》 第五章【Logistic回归】
logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。以胃癌病情分析为例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等。因此因变量就为是否胃癌,值为“是”或“否”,自变量就可以包括很多了,如年龄、性别、饮食习惯、幽门螺杆菌...原创 2019-10-15 20:42:47 · 489 阅读 · 0 评论 -
【ML经典算法】后向传播算法(back propagation)
参考资料:1.《机器学习》-周志华2.这篇文章也不错https://blog.csdn.net/kebu12345678/article/details/80872144原创 2019-10-14 20:57:53 · 154 阅读 · 0 评论 -
《机器学习实战》 第四章【朴素贝叶斯】
贝叶斯方法是以贝叶斯原理为基础,使用概率统计的知识对样本数据集进行分类。由于其有着坚实的数学基础,贝叶斯分类算法的误判率是很低的。贝叶斯方法的特点是结合先验概率和后验概率,即避免了只使用先验概率的主管偏见,也避免了单独使用样本信息的过拟合现象。贝叶斯分类算法在数据集较大的情况下表现出较高的准确率,同时算法本身也比较简单。——百度百科目录算法描述算法简述优缺点一般流程使用朴素贝叶斯过滤垃圾邮...原创 2019-10-14 19:17:36 · 364 阅读 · 0 评论 -
《机器学习实战》 第三章【决策树】
决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。——百度百科按照我个人的理解来解释就是,决策树是一种能够理解数据集中内含的知识信息并进行递归划分,直到划分为不可再分的标签为止,它是一种用于分类的递归算法。目录算法描述算法简述信息增益熵:一种描...原创 2019-10-13 14:51:28 · 327 阅读 · 0 评论 -
《机器学习实战》 第二章【k-近邻算法】
作为本书的第一个算法,k-近邻算法简单易懂,在分类任务中起到很重要的作用目录算法描述算法简述优缺点一般流程实例0.一个简单的例子实例1.约会网站配对实例2.手写数字识别算法描述算法简述简单的说,k-近邻算法采用测量不同特征值之间的距离方法进行分类。即如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。Step1.计算已...原创 2019-10-12 21:11:42 · 204 阅读 · 0 评论 -
《机器学习实战》 第一章【机器学习基础】
在做这一系列博文之前,我先大概看了系列教程吴恩达的《机器学习》,对机器学习有了一定的了解的认识,但对于具体编程和实践而言,本人还是个菜鸟,趁着大四现在还有些时间,为以后研究生生活打下基础,计划在半个月左右学习完Peter Harrington的《机器学习实战》这本书的内容。本章比较基础,所以就概要提下关键点1.何谓机器学习机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析...原创 2019-10-12 14:44:16 · 158 阅读 · 0 评论