刻意练习:机器学习实战
准备利用8周时间,夯实机器学习常用算法,完成以下任务:
分类问题:K邻近算法
分类问题:决策树
分类问题:朴素贝叶斯
分类问题:逻辑回归
分类问题:支持向量机
分类问题:AdaBoost
回归问题:线性回归、岭回归、套索方法、逐步回归等
回归问题:树回归
聚类问题:K均值聚类
相关问题:Apriori
相关问题:FP-Growth
简化数据:PCA主成分分析
简化数据:SVD奇异值分解
Mu__Cheng
这个作者很懒,什么都没留下…
展开
-
FP-Growth
FP-growth算法FP-growth只会扫描数据集两次,,它发现频繁项集的基本过程如下:(1) 构建FP树(2) 从FP树中挖掘频繁项集优点:一般要快于Apriori。 缺点:实现比较困难,在某些数据集上性能会下降。 适用数据类型:标称型数据FP-growth的一般流程(1) 收集数据:使用任意方法。 (2) 准备数据:由于存储的是集合,所以需要离散数据。如果要处理连续数据,需要...原创 2019-12-28 12:44:14 · 283 阅读 · 0 评论 -
Apriori算法
Apriori算法优点:易编码实现。缺点:在大数据集上可能较慢。适用数据类型:数值型或者标称型数据Apriori算法的一般过程(1) 收集数据:使用任意方法。(2) 准备数据:任何数据类型都可以,因为我们只保存集合。(3) 分析数据:使用任意方法。(4) 训练算法:使用Apriori算法来找到频繁项集。(5) 测试算法:不需要测试过程。(6) 使用算法:用于发现频繁项集以及物品...原创 2019-12-26 16:05:47 · 272 阅读 · 0 评论 -
K均值聚类
K-均值聚类算法优点:容易实现。缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢。适用数据类型:数值型数据K-均值是发现给定数据集的k个簇的算法。簇个数k是用户给定的,每一个簇通过其质心 (centroid),即簇中所有点的中心来描述。 K-均值算法的工作流程是这样的。首先,随机确定k个初始点作为质心。然后将数据集中的 每个点分配到一个簇中,具体来讲,为每个点找距其最近的质心,并...原创 2019-12-26 15:48:59 · 330 阅读 · 0 评论 -
回归
用线性回归找到最佳拟合直线优点:结果易于理解,计算上不复杂。缺点:对非线性的数据拟合不好。适用数据类型:数值型和标称型数据回归的一般方法(1) 收集数据:采用任意方法收集数据。(2) 准备数据:回归需要数值型数据,标称型数据将被转成二值型数据。(3) 分析数据:绘出数据的可视化二维图将有助于对数据做出理解和分析,在采用缩减法 求得新回归系数之后,可以将新拟合线绘在图上作为对比。...原创 2019-12-26 15:29:29 · 193 阅读 · 0 评论 -
AdaBoost
adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器,然后把这些弱分类器集合起来,构成一个更强的最终分类器。优点:泛化错误率低,易编码,可以应用在大部分分类器上,无参数调整。 缺点:对离群点敏感。 适用数据类型:数值型和标称型数据bagging:基于数据随机重抽样的分类器构建方法自举汇聚法(bootstrap aggregating),也称为bagging方法,是在从...原创 2019-12-14 21:33:45 · 308 阅读 · 1 评论 -
支持向量机
优点:泛化错误率低,计算开销不大,结果易解释。 缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题。 适用数据类型:数值型和标称型数据将数据集分隔开来的直线称为分隔超平面(separating hyperplane),也就是分类的决策边界。分布在超平面一侧的所有数据都属于某个类别,而分布在另一侧的所有数据则属于另一个类别。支持向量(support vector)就是离分...原创 2019-12-06 17:46:32 · 222 阅读 · 0 评论 -
逻辑回归
Logistic回归的一般过程(1) 收集数据:采用任意方法收集数据。(2) 准备数据:由于需要进行距离计算,因此要求数据类型为数值型。另外,结构化数据 格式则最佳。(3) 分析数据:采用任意方法对数据进行分析。(4) 训练算法:大部分时间将用于训练,训练的目的是为了找到最佳的分类回归系数。(5) 测试算法:一旦训练步骤完成,分类将会很快。(6) 使用算法:首先,我们需要输入一些数据,...原创 2019-11-29 16:43:32 · 117 阅读 · 0 评论 -
朴素页贝斯
基于贝叶斯决策理论的分类方法优点:在数据较少的情况下仍然有效,可以处理多类别问题。缺点:对于输入数据的准备方式较为敏感。适用数据类型:标称型数据用p1(x,y)表示数据点(x,y)属于类别1(图中用圆点表示的类别)的概率,用p2(x,y)表示数据点(x,y)属于类别2(图中用三角形表示的类别)的概率, 那么对于一个新数据点(x,y),可以用下面的规则来判断它的类别:如果 p1(x,y...原创 2019-11-29 16:24:36 · 438 阅读 · 0 评论 -
决策树
决策树原理适用场景:决策树能够生成清晰的基于特征(feature)选择不同预测结果的树状结构,希望更好的理解手上的数据的时候往往可以使用决策树,在实际应用中,受限于它的简单性,决策树更大的用处是作为一些更有用的算法的基石,例如:随机森林。决策树优缺点优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。缺点:可能会产生过度匹配问题。适用数据类型:...原创 2019-11-16 19:55:37 · 209 阅读 · 0 评论 -
K邻近算法
KNN原理K-近邻法简介k近邻法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法。它的工作原理是:存在一个样本数据集合,也称作为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后,将新的数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本最相似...原创 2019-11-16 19:10:34 · 201 阅读 · 0 评论