voidmort-CSDN博客

原创机器学习实战中的函数学习记录

title: 机器学习实战中的函数学习记录date: 2020-05-01 09:20:50tags: [python函数]categories: 机器学习实战更多内容请关注我的博客记录机器学习实战中遇到的函数import numpy as nptile()tile(A, reps)tile函数的作用是让某个数组或矩阵A，以reps的维度重复，构造出新的数组，所以返回值也是个数组。a = array([0, 1])b = np.tile(a, 2)c = np.tile(a, .

2021-05-02 14:45:49 225

原创机器学习实战（十四）

title: 机器学习实战（十四）date: 2020-06-08 16:20:50tags: [SVD]categories: 机器学习实战更多内容请关注我的博客利用SVD简化数据奇异值分解（singular value decomposition，SVD）SVD的应用奇异值分解优点：简化数据，去除噪声，提高算法的结果缺点：数据的转换可能难以理解适用数据类型：数值型数据利用SVD实现，我们能够用小得多的数据集来表示原始数据集。这样做，实际上是去除噪声和冗余信息。隐性语义索引.

2021-05-02 14:45:42 297

原创机器学习实战（十三）

title: 机器学习实战（十三）date: 2020-06-04 16:20:50tags: [PCA, 降维, 主成分分析]categories: 机器学习实战更多内容请关注我的博客利用PCA来简化数据降维（dimensionality reduction），数据在低纬度时更容易处理。降维技术数据进行简化的原因：使得数据集更容易使用降低很多算法的计算开销去除噪声使得结果易懂降维方法，主成分分析（Principal Component Analysis，PCA），数据从原来.

2021-05-02 14:45:33 181

原创机器学习实战（十二）

title: 机器学习实战（十二）date: 2020-06-02 09:20:50tags: [FP-growth]categories: 机器学习实战更多内容请关注我的博客使用FP-growth算法来高效发现频繁项集FP-growth算法只会对数据库进行两次扫描，而Apriori算法对于每个潜在的频繁项集都会扫描数据集判断给定模式是否频繁，因此FP-growth算法的速度要比Apriori算法快。FP树：用于编码数据集的有效方式FP-growth算法优点：一般要快于Apriori.

2021-05-02 14:45:21 195

原创机器学习实战（十一）

title: 机器学习实战（十一）date: 2020-05-28 09:20:50tags: [关联分析, Apriori算法]categories: 机器学习实战更多内容请关注我的博客使用Apriori算法进行关联分析在大规模数据集中寻找物品的隐含关系被称作关联分析(association analysis)或者关联规则学习(association rule learning)，例如商品的定向推荐。关联分析Aprior算法优点：易编码事先缺点：在大数据集上可能较慢适用数据类型：.

2021-05-02 14:45:11 310

原创机器学习实战（十）

title: 机器学习实战（十）date: 2020-05-15 09:20:50tags: [聚类, K-均值]categories: 机器学习实战更多内容请关注我的博客利用K-均值聚类算法对未标注数据分组聚类是一种无监督的学习，它将相似的对象归到同一个簇中，它有点像全自动分类。聚类方法几乎可以应用于所有对象，簇内的对象越相似，聚类的效果越好。K-means聚类算法，它可以发现k个不同的簇，且每个簇中心采用簇中所含值的均值计算而成。簇识别（cluster identification）.

2021-05-01 22:50:23 212

原创机器学习实战（九）

title: 机器学习实战（九）date: 2020-05-01 09:20:50tags: [树回归, CSRT算法, 树剪枝算法]categories: 机器学习实战更多内容请关注我的博客数回归分类回归树 Classification And Regression Trees 分类回归树。该算法既可以用于回归还可以用于分类。复杂数据的局部性建模数回归优点：可以对复杂和线性的数据建模缺点：结果不易理解适用数据类型：数值型和标称型数据第三章使用的树构建的算法是ID3。ID3的做.

2021-05-01 22:48:48 178

原创机器学习实战（八）

title: 机器学习实战（八）date: 2020-04-20 09:20:50tags: [线性回归, 岭回归, 最小二乘法]categories: 机器学习实战更多内容请关注我的博客预测数值型数据：回归分类的目标变量是标称型数据，而回归是对连续性数据做出预测。用线性回归找到最佳拟合直线线性回归优点：结果易于理解，计算上不复杂缺点：对非线性的数据拟合不好适用数据类型：数值型和标称型数据回归的目的是预测数值型的目标值。最直接的办法是依据输入写出一个目标值的计算公式。Z = .

2021-05-01 22:47:42 377

原创机器学习实战（七）

title: 机器学习实战（七）date: 2020-04-07 09:20:50tags: [AdaBoost, bagging, boosting, ROC]categories: 机器学习实战更多内容请关注我的博客利用AdaBoost元算法提高分类性能在做决定时，大家可能会吸取多个专家而不是一个人的意见，机器学习也有类似的算法，这就是元算法（meta-algorithm）。元算法是对其他算法进行组合的一种方式。基于数据集多重抽样的分类器前面已经学习了五种不同的分类算法，它们各有优.

2021-05-01 22:46:57 270

原创机器学习实战（六）

title: 机器学习实战（六）date: 2020-04-04 10:15:50tags: [SVM, SMO, 支持向量机]categories: 机器学习实战更多内容请关注我的博客这一章的内容非常多，在神经网络大火前，SVM是最优秀的机器学习算法，尽管现在已经很少用了，但作为一本七年前的书还是很详细的讲解了，所以这里简单的记录下。基于最大间隔分隔数据支持向量机优点：泛化错误率低，计算开销不大，结果易理解缺点：对参数调节和核函数选择敏感，原始分类器不加修改仅适用于处理二分类问题适.

2021-05-01 22:43:02 264

原创机器学习实战（五）

title: 机器学习实战（五）date: 2020-04-01 09:15:50tags: [逻辑回归]categories: 机器学习实战更多内容请关注我的博客Logistic回归是一个最优化算法，比如如何在最短时间从A点到达B点？回归：假设我们有一些数据点，我们用一条直线对这些点进行拟合（该线称为最佳拟合直线），这个拟合过程就叫做回归。根据现有的数据对分类边界线建立回归公式，依次进行分类。这里的“回归”一次源于最佳拟合，表示要找到最佳拟合参数集。Logistic回归的一般过程：.

2021-05-01 22:41:33 204

原创机器学习实战（四）

title: 机器学习实战（四）date: 2020-03-21 10:15:50tags: [朴素贝叶斯]categories: 机器学习实战更多内容请关注我的博客前两章的分类器只能给出分类结果，而不能给出概率，这一章将学习一个最简单的概率分类器，朴素贝叶斯分类器。之所以称为朴素，是因为整个形式化过程只做最原始，最简单的假设。基于贝叶斯决策理论的分类方法朴素贝叶斯优点：在数据较少的情况下仍然有效，可以处理多分类问题缺点：对输入数据的准备方式较为敏感适用数据类型：标称型数据朴素贝.

2021-05-01 22:38:01 205

原创机器学习实战（三）

title: 机器学习实战（三）date: 2020-03-06 10:15:50tags: [决策树, ID3]categories: 机器学习实战更多内容请关注我的博客决策树的简介你是否玩过二十个问题的游戏，就是你在脑海中想某个事物，向你提问二十个问题推测出你想的东西。这个游戏的原理和决策树类似，下面是一个判断垃圾邮件的决策树。决策树的构造决策树优点：计算复杂度不高，输出的结果易于理解，对中间值的缺失不敏感，可以处理不相关特征的数据缺点：可能会产生过度匹配的问题适用数据类型：.

2021-05-01 22:36:18 378

原创机器学习实战（二）

title: 机器学习实战（二）date: 2020-02-18 11:20:50tags: [k-邻近算法, KNN]categories: 机器学习实战更多内容请关注我的博客k-邻近算法概述k-邻近算法采用测量不同特征之间的距离方法进行分类。优点：精度高，对异常值不敏感，无数据输入假定缺点：计算复杂度高，空间复杂度高适用数据范围：数值型和标称型准备使用Python导入数据首先写一个简单的程序来理解python是如何解析和加载数据的from numpy import *im.

2021-05-01 22:35:47 256

原创机器学习实战（一）

title: 机器学习实战（一）date: 2020-02-18 11:20:50tags: [机器学习, 机器学习实战]categories: 机器学习实战更多内容请关注我的博客此blog是机器学习实战这本书的读书笔记机器学习基础用计算机来彰显数据背后真正的意义，这才是机器学习的真正含义。在分类算法中目标变量的类型通常是标称型的，而在回归算法中通常是连续型的。训练样本必须知道目标变量的值，以便机器学习算法可以发现特征和目标变量之间的关系。特征或者属性通常是训练样本集的列，它们是独立.

2021-05-01 22:24:37 465

voidmort的博客