![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习实战
文章平均质量分 92
voidmort
这个作者很懒,什么都没留下…
展开
-
机器学习实战中的函数学习记录
title: 机器学习实战中的函数学习记录 date: 2020-05-01 09:20:50 tags: [python函数] categories: 机器学习实战 更多内容请关注我的博客 记录机器学习实战中遇到的函数 import numpy as np tile() tile(A, reps) tile函数的作用是让某个数组或矩阵A,以reps的维度重复,构造出新的数组,所以返回值也是个数组。 a = array([0, 1]) b = np.tile(a, 2) c = np.tile(a, .原创 2021-05-02 14:45:49 · 225 阅读 · 0 评论 -
机器学习实战(十四)
title: 机器学习实战(十四) date: 2020-06-08 16:20:50 tags: [SVD] categories: 机器学习实战 更多内容请关注我的博客 利用SVD简化数据 奇异值分解(singular value decomposition,SVD) SVD的应用 奇异值分解 优点:简化数据,去除噪声,提高算法的结果 缺点:数据的转换可能难以理解 适用数据类型:数值型数据 利用SVD实现,我们能够用小得多的数据集来表示原始数据集。这样做,实际上是去除噪声和冗余信息。 隐性语义索引.原创 2021-05-02 14:45:42 · 297 阅读 · 0 评论 -
机器学习实战(十三)
title: 机器学习实战(十三) date: 2020-06-04 16:20:50 tags: [PCA, 降维, 主成分分析] categories: 机器学习实战 更多内容请关注我的博客 利用PCA来简化数据 降维(dimensionality reduction),数据在低纬度时更容易处理。 降维技术 数据进行简化的原因: 使得数据集更容易使用 降低很多算法的计算开销 去除噪声 使得结果易懂 降维方法,主成分分析(Principal Component Analysis,PCA),数据从原来.原创 2021-05-02 14:45:33 · 181 阅读 · 0 评论 -
机器学习实战(十二)
title: 机器学习实战(十二) date: 2020-06-02 09:20:50 tags: [FP-growth] categories: 机器学习实战 更多内容请关注我的博客 使用FP-growth算法来高效发现频繁项集 FP-growth算法只会对数据库进行两次扫描,而Apriori算法对于每个潜在的频繁项集都会扫描数据集判断给定模式是否频繁,因此FP-growth算法的速度要比Apriori算法快。 FP树:用于编码数据集的有效方式 FP-growth算法 优点:一般要快于Apriori .原创 2021-05-02 14:45:21 · 195 阅读 · 0 评论 -
机器学习实战(十一)
title: 机器学习实战(十一) date: 2020-05-28 09:20:50 tags: [关联分析, Apriori算法] categories: 机器学习实战 更多内容请关注我的博客 使用Apriori算法进行关联分析 在大规模数据集中寻找物品的隐含关系被称作关联分析(association analysis)或者关联规则学习(association rule learning),例如商品的定向推荐。 关联分析 Aprior算法 优点:易编码事先 缺点:在大数据集上可能较慢 适用数据类型:.原创 2021-05-02 14:45:11 · 310 阅读 · 0 评论 -
机器学习实战(十)
title: 机器学习实战(十) date: 2020-05-15 09:20:50 tags: [聚类, K-均值] categories: 机器学习实战 更多内容请关注我的博客 利用K-均值聚类算法对未标注数据分组 聚类是一种无监督的学习,它将相似的对象归到同一个簇中,它有点像全自动分类。聚类方法几乎可以应用于所有对象,簇内的对象越相似,聚类的效果越好。 K-means聚类算法,它可以发现k个不同的簇,且每个簇中心采用簇中所含值的均值计算而成。 簇识别(cluster identification).原创 2021-05-01 22:50:23 · 212 阅读 · 0 评论 -
机器学习实战(七)
title: 机器学习实战(七) date: 2020-04-07 09:20:50 tags: [AdaBoost, bagging, boosting, ROC] categories: 机器学习实战 更多内容请关注我的博客 利用AdaBoost元算法提高分类性能 在做决定时,大家可能会吸取多个专家而不是一个人的意见,机器学习也有类似的算法,这就是元算法(meta-algorithm)。 元算法是对其他算法进行组合的一种方式。 基于数据集多重抽样的分类器 前面已经学习了五种不同的分类算法,它们各有优.原创 2021-05-01 22:46:57 · 270 阅读 · 0 评论 -
机器学习实战(九)
title: 机器学习实战(九) date: 2020-05-01 09:20:50 tags: [树回归, CSRT算法, 树剪枝算法] categories: 机器学习实战 更多内容请关注我的博客 数回归 分类回归树 Classification And Regression Trees 分类回归树。该算法既可以用于回归还可以用于分类。 复杂数据的局部性建模 数回归 优点:可以对复杂和线性的数据建模 缺点:结果不易理解 适用数据类型:数值型和标称型数据 第三章使用的树构建的算法是ID3。ID3的做.原创 2021-05-01 22:48:48 · 176 阅读 · 0 评论 -
机器学习实战(八)
title: 机器学习实战(八) date: 2020-04-20 09:20:50 tags: [线性回归, 岭回归, 最小二乘法] categories: 机器学习实战 更多内容请关注我的博客 预测数值型数据:回归 分类的目标变量是标称型数据,而回归是对连续性数据做出预测。 用线性回归找到最佳拟合直线 线性回归 优点:结果易于理解,计算上不复杂 缺点:对非线性的数据拟合不好 适用数据类型:数值型和标称型数据 回归的目的是预测数值型的目标值。最直接的办法是依据输入写出一个目标值的计算公式。 Z = .原创 2021-05-01 22:47:42 · 377 阅读 · 0 评论 -
机器学习实战(六)
title: 机器学习实战(六) date: 2020-04-04 10:15:50 tags: [SVM, SMO, 支持向量机] categories: 机器学习实战 更多内容请关注我的博客 这一章的内容非常多,在神经网络大火前,SVM是最优秀的机器学习算法,尽管现在已经很少用了,但作为一本七年前的书还是很详细的讲解了,所以这里简单的记录下。 基于最大间隔分隔数据 支持向量机 优点:泛化错误率低,计算开销不大,结果易理解 缺点:对参数调节和核函数选择敏感,原始分类器不加修改仅适用于处理二分类问题 适.原创 2021-05-01 22:43:02 · 264 阅读 · 0 评论 -
机器学习实战(五)
title: 机器学习实战(五) date: 2020-04-01 09:15:50 tags: [逻辑回归] categories: 机器学习实战 更多内容请关注我的博客 Logistic回归是一个最优化算法,比如如何在最短时间从A点到达B点? 回归:假设我们有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就叫做回归。 根据现有的数据对分类边界线建立回归公式,依次进行分类。这里的“回归”一次源于最佳拟合,表示要找到最佳拟合参数集。 Logistic回归的一般过程: .原创 2021-05-01 22:41:33 · 204 阅读 · 0 评论 -
机器学习实战(四)
title: 机器学习实战(四) date: 2020-03-21 10:15:50 tags: [朴素贝叶斯] categories: 机器学习实战 更多内容请关注我的博客 前两章的分类器只能给出分类结果,而不能给出概率,这一章将学习一个最简单的概率分类器,朴素贝叶斯分类器。之所以称为朴素,是因为整个形式化过程只做最原始,最简单的假设。 基于贝叶斯决策理论的分类方法 朴素贝叶斯 优点:在数据较少的情况下仍然有效,可以处理多分类问题 缺点:对输入数据的准备方式较为敏感 适用数据类型:标称型数据 朴素贝.原创 2021-05-01 22:38:01 · 205 阅读 · 0 评论 -
机器学习实战(三)
title: 机器学习实战(三) date: 2020-03-06 10:15:50 tags: [决策树, ID3] categories: 机器学习实战 更多内容请关注我的博客 决策树的简介 你是否玩过二十个问题的游戏,就是你在脑海中想某个事物,向你提问二十个问题推测出你想的东西。这个游戏的原理和决策树类似,下面是一个判断垃圾邮件的决策树。 决策树的构造 决策树 优点:计算复杂度不高,输出的结果易于理解,对中间值的缺失不敏感,可以处理不相关特征的数据 缺点:可能会产生过度匹配的问题 适用数据类型:.原创 2021-05-01 22:36:18 · 378 阅读 · 0 评论 -
机器学习实战(二)
title: 机器学习实战(二) date: 2020-02-18 11:20:50 tags: [k-邻近算法, KNN] categories: 机器学习实战 更多内容请关注我的博客 k-邻近算法概述 k-邻近算法采用测量不同特征之间的距离方法进行分类。 优点:精度高,对异常值不敏感,无数据输入假定 缺点:计算复杂度高,空间复杂度高 适用数据范围:数值型和标称型 准备使用Python导入数据 首先写一个简单的程序来理解python是如何解析和加载数据的 from numpy import * im.原创 2021-05-01 22:35:47 · 255 阅读 · 0 评论 -
机器学习实战(一)
title: 机器学习实战(一) date: 2020-02-18 11:20:50 tags: [机器学习, 机器学习实战] categories: 机器学习实战 更多内容请关注我的博客 此blog是机器学习实战这本书的读书笔记 机器学习基础 用计算机来彰显数据背后真正的意义,这才是机器学习的真正含义。 在分类算法中目标变量的类型通常是标称型的,而在回归算法中通常是连续型的。 训练样本必须知道目标变量的值,以便机器学习算法可以发现特征和目标变量之间的关系。 特征或者属性通常是训练样本集的列,它们是独立.原创 2021-05-01 22:24:37 · 465 阅读 · 0 评论