刻意练习：机器学习实战_Mu__Cheng的博客-CSDN博客

刻意练习：机器学习实战

关注

准备利用8周时间，夯实机器学习常用算法，完成以下任务：分类问题：K邻近算法分类问题：决策树分类问题：朴素贝叶斯分类问题：逻辑回归分类问题：支持向量机分类问题：AdaBoost 回归问题：线性回归、岭回归、套索方法、逐步回归等回归问题：树回归聚类问题：K均值聚类相关问题：Apriori 相关问题：FP-Growth 简化数据：PCA主成分分析简化数据：SVD奇异值分解

关注数：文章数：10 文章阅读量：2572 文章收藏量：1

作者: Mu__Cheng

这个作者很懒，什么都没留下…

展开

FP-Growth

FP-growth算法FP-growth只会扫描数据集两次，，它发现频繁项集的基本过程如下：(1) 构建FP树(2) 从FP树中挖掘频繁项集优点：一般要快于Apriori。缺点：实现比较困难，在某些数据集上性能会下降。适用数据类型：标称型数据FP-growth的一般流程(1) 收集数据：使用任意方法。 (2) 准备数据：由于存储的是集合，所以需要离散数据。如果要处理连续数据，需要...

原创 2019-12-28 12:44:14 · 283 阅读 · 0 评论
Apriori算法

Apriori算法优点：易编码实现。缺点：在大数据集上可能较慢。适用数据类型：数值型或者标称型数据Apriori算法的一般过程(1) 收集数据：使用任意方法。(2) 准备数据：任何数据类型都可以，因为我们只保存集合。(3) 分析数据：使用任意方法。(4) 训练算法：使用Apriori算法来找到频繁项集。(5) 测试算法：不需要测试过程。(6) 使用算法：用于发现频繁项集以及物品...

原创 2019-12-26 16:05:47 · 272 阅读 · 0 评论
K均值聚类

K-均值聚类算法优点：容易实现。缺点：可能收敛到局部最小值，在大规模数据集上收敛较慢。适用数据类型：数值型数据K-均值是发现给定数据集的k个簇的算法。簇个数k是用户给定的，每一个簇通过其质心（centroid），即簇中所有点的中心来描述。 K-均值算法的工作流程是这样的。首先，随机确定k个初始点作为质心。然后将数据集中的每个点分配到一个簇中，具体来讲，为每个点找距其最近的质心，并...

原创 2019-12-26 15:48:59 · 330 阅读 · 0 评论
回归

用线性回归找到最佳拟合直线优点：结果易于理解，计算上不复杂。缺点：对非线性的数据拟合不好。适用数据类型：数值型和标称型数据回归的一般方法(1) 收集数据：采用任意方法收集数据。(2) 准备数据：回归需要数值型数据，标称型数据将被转成二值型数据。(3) 分析数据：绘出数据的可视化二维图将有助于对数据做出理解和分析，在采用缩减法求得新回归系数之后，可以将新拟合线绘在图上作为对比。...

原创 2019-12-26 15:29:29 · 193 阅读 · 0 评论
AdaBoost

adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器，然后把这些弱分类器集合起来，构成一个更强的最终分类器。优点：泛化错误率低，易编码，可以应用在大部分分类器上，无参数调整。缺点：对离群点敏感。适用数据类型：数值型和标称型数据bagging：基于数据随机重抽样的分类器构建方法自举汇聚法（bootstrap aggregating），也称为bagging方法，是在从...

原创 2019-12-14 21:33:45 · 308 阅读 · 1 评论
支持向量机

优点：泛化错误率低，计算开销不大，结果易解释。缺点：对参数调节和核函数的选择敏感，原始分类器不加修改仅适用于处理二类问题。适用数据类型：数值型和标称型数据将数据集分隔开来的直线称为分隔超平面（separating hyperplane），也就是分类的决策边界。分布在超平面一侧的所有数据都属于某个类别，而分布在另一侧的所有数据则属于另一个类别。支持向量（support vector）就是离分...

原创 2019-12-06 17:46:32 · 222 阅读 · 0 评论
逻辑回归

Logistic回归的一般过程(1) 收集数据：采用任意方法收集数据。(2) 准备数据：由于需要进行距离计算，因此要求数据类型为数值型。另外，结构化数据格式则最佳。(3) 分析数据：采用任意方法对数据进行分析。(4) 训练算法：大部分时间将用于训练，训练的目的是为了找到最佳的分类回归系数。(5) 测试算法：一旦训练步骤完成，分类将会很快。(6) 使用算法：首先，我们需要输入一些数据，...

原创 2019-11-29 16:43:32 · 117 阅读 · 0 评论
朴素页贝斯

基于贝叶斯决策理论的分类方法优点：在数据较少的情况下仍然有效，可以处理多类别问题。缺点：对于输入数据的准备方式较为敏感。适用数据类型：标称型数据用p1(x,y)表示数据点(x,y)属于类别1（图中用圆点表示的类别）的概率，用p2(x,y)表示数据点(x,y)属于类别2（图中用三角形表示的类别）的概率，那么对于一个新数据点(x,y)，可以用下面的规则来判断它的类别：如果 p1(x,y...

原创 2019-11-29 16:24:36 · 438 阅读 · 0 评论
决策树

决策树原理适用场景：决策树能够生成清晰的基于特征(feature)选择不同预测结果的树状结构，希望更好的理解手上的数据的时候往往可以使用决策树，在实际应用中，受限于它的简单性，决策树更大的用处是作为一些更有用的算法的基石，例如：随机森林。决策树优缺点优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据。缺点：可能会产生过度匹配问题。适用数据类型：...

原创 2019-11-16 19:55:37 · 209 阅读 · 0 评论
K邻近算法

KNN原理K-近邻法简介k近邻法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法。它的工作原理是：存在一个样本数据集合，也称作为训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后，将新的数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本最相似...

原创 2019-11-16 19:10:34 · 201 阅读 · 0 评论

刻意练习：机器学习实战

作者: Mu__Cheng

FP-Growth

Apriori算法

K均值聚类

回归

AdaBoost

支持向量机

逻辑回归

朴素页贝斯

决策树

K邻近算法