言沫341-CSDN博客

原创机器学习基础练习之ttnkh

print(f'女性的存活率是{rate_women}')print(f'男性的存活率为{rate_men}')#y是活着的，即要求预测的结果--标签。#用feature的特征来进行预测。#测试集与训练集要一样的模式。#模型使用为随机森林。

2023-06-03 23:07:50 83

已知你朋友的信息，比如经常发email的联系人，或是你的微博好友、微信的朋友圈，我们可运用聚类方法自动地给朋友进行分组，做到让每组里的人们彼此都熟识。例如，如果你已根据用户行为对网站用户进行了聚类，则可以检测到具有异常行为的用户，例如每秒的请求数量异常。聚类：识别相似实例并将其分配给相似实例的集群或组。聚类是很好的工具，用于数据分析、客户细分、推荐系统、搜索引擎、图像分割、半监督学习、降维等。机器学习的大多数应用都是基于有监督学习的，但是绝大多数可用数据都没有标签：具有输入特征X，但是没有标签y。

2023-06-01 23:23:46 76

原创 day13--机器学习--降维(2)

一旦确定了所有主要成分，你就可以将数据集投影到前d个主要成分定义的超平面上，从而将数据集的维度降低到d维。要将训练集投影到超平面上并得到维度为d的简化数据集Xd-proj，计算训练集矩阵X与矩阵Wd的矩阵相乘，矩阵Wd定义为包含V的前d列的矩阵。PCA背后的简单思想：比较原始数据集与其轴上的投影之间的均方距离，使这个均方距离最小的轴是最合理的选择，也就是实线代表的轴。该比率表示沿每个成分的数据集方差的比。在实线上的投影保留了最大的差异性，而点线上的投影只保留了非常小的差异性，虚线上的投影的差异性居中。

2023-05-31 23:44:01 52 1

原创 day12-－机器学习－－降维(1)

高维使得学习算法的泛化能力变弱（例如，在最近邻分类器中，样本复杂度随着维度成指数增长），维度越高，算法的搜索难度和成本就越大。维数灾难(Curse of Dimensionality)：通常是指在涉及到向量的计算的问题中，随着维数的增加，计算量呈指数倍增长的一种现象。随着特征数量的增多，计算量会变得很大，维度太大也会导致机器学习性能的下降，并不是特征维度越大越好，模型的性能会随着特征维度的增加先上升后下降。假设现在有个特征x1用厘米表示身高，x2用英米表示身高，虽然是两个特征，不过表达的都是一个意思。

2023-05-30 21:49:26 45

原创 day11-机器学习－－随机森林与集成学习(2)

随机森林核心点是「随机」和「森林」，也是给它带来良好性能的最大支撑。属性扰动：在随机森林中，对基决策树的每个结点，先在该结点的特征属性集合中随机选择 k 个属性，然后再从这 k个属性中选择一个最优属性进行划分。随机森林在树的生长上引入了更多的随机性：分裂节点时不再是搜索最好的特征，而是在一个随机生成的特征子集里搜索最好的特征。随机森林的另一个好特性是它们使测量每个特征的相对重要性变得容易。该特征的树节点平均（在森林中的所有树上）减少不纯度的程度来衡量该特征的重要性。随机森林投票（平均）。

2023-05-29 10:13:59 56

原创机器学习－day10-随机森林与集成学习(1)

如果你聚合一组预测器（比如分类器或回归器）的预测，得到的预测结果也比最好的单个预测器要好。由于预测器在训练过程中从未看到oob实例，因此可以在这些实例上进行评估，而无须单独的验证集。上述过程重复m 轮，我们得到 m 个样本的采样集，初始训练集中有的样本在采样集中多次出现，有的则从未出现，约 63.2 的样本出现在采样集中，而未出现的约 36.8的样本可用作验证集来对后续的泛化性能进行「包外估计」。要创建出一个更好的分类器，最简单的办法就是聚合每个分类器的预测，然后将得票最多的结果作为预测类别。

2023-05-27 23:30:19 54 1

原创机器学习--day9--决策树整个流程

对于离散取值的特征，决策树的划分方式是：选取一个最合适的特征属性，然后将集合按照这个特征属性的不同值划分为多个子集合，并且不断的重复这种操作的过程。是什么：在决策树生长过程中，对每个结点在划分前进行估计，若当前结点的划分不能带来决策树泛化性能的提升，则停止划分并将当前结点标记为叶结点。很6，看完对决策数的理解会上一层楼，其中的交叉验证如何使用，pd. Dates如何使用，多看看，去实践，更熟练，条件熵：和信息熵一样，就是概率不一样，信息熵是最后分类的标签的概率，条件熵是每个特征的概率，看实例更容易理解。

2023-05-26 21:07:49 48 1

原创 day8－－决策树－－介绍

决策树是一种树形结构，其中：每个内部结点表示一个属性的判断每个分支表示一个判断结果的输出每个叶结点代表一种分类类别决策树思想的来源非常朴素，程序设计中的条件分支结构就是if-else结构，最早的决策树就是利用这类结构分割数据的一种分类学习方法。决策树的决策过程就是从根节点开始，测试待分类项中对应的特征属性，并按照其值选择输出分支，直到叶子节点，将叶子节点的存放的类别作为决策结果。建立决策树的关键，即在当前状态下选择哪个属性作为分类依据。决策树是一种预测模型，代表的是对象属性与对象值之间的映射关系。

2023-05-25 23:31:57 68 1

原创机器学习--day7--NB算法

贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。而朴素贝叶斯（Naive Bayes）分类是贝叶斯分类中最简单，也是常见的一种分类方法。朴素贝叶斯算法的核心思想是通过考虑特征概率来预测分类，即对于给出的待分类样本，求解在此样本出现的条件下各个类别出现的概率，哪个最大，就认为此待分类样本属于哪个类别。基于贝叶斯定理的贝叶斯是一种非常常用的分类算法，假设带分类项的各个属性相互独立的情况下，这个贝叶斯就是朴素的，称为朴素贝叶斯算法。

2023-05-24 23:53:36 77 3

原创机器学习--day6--KNN

K近邻（K-Nearest Neighbor，KNN) 算法是一个典型的监督学习算法核心思想是：未标记样本的类别由距离其最近的K个邻居通过投票来决定。KNN的原理是：计算待标记样本和数据集中每个样本的距离取距离最近的K个样本待标记的样本所属类别由这K个距离最近的样本投票产生。使用的距离是欧式距离，但也可以是其他距离，如更一般的L_p距离（L_p distance）或Minkowski距离。欧氏距离(Euclidean distance) 是最常用的距离计算公式，衡量的是多维空间中各个点之间的绝对距离。

2023-05-23 23:13:56 32 2

原创机器学习--day5--SVM

这样我们就可以使用原来的推导来进行计算，只是所有的推导是在新的空间，而不是在原来的空间中进行，即用核函数来替换当中的内积。SVM回归要做的是让尽可能多的实例位于街道上，同时限制间隔违例（也就是不在街道上的实例）。支持向量机（Support Vector Machine，SVM）是一个功能强大并且全面的机器学习模型，它能够执行线性或非线性分类、回归，甚至是异常值检测任务。差不多了，今天就学到这了，csdn上面有很多优秀的文章，我这个只是每天激励自己学习，要是真的有帮助，那也算我的荣幸。

2023-05-22 22:39:41 49 1

原创机器学习--day4--训练模型

一个简单的方法就是将每个特征的幂次方程添加为一个新特征，然后在此扩展特征集上训练一个线性模型。当存在多个特征时，多项式回归能够找到特征之间的关系，polynomialfeature还可以将特征的所有组合添加到给定的多项式阶数。预测公式其实和我们高中学的一元1次函数差不多，不过x不只有1个，有几个特征，就有几个x，y就是预测值。批量梯度下降，随机梯度下降，小批量梯度下降有点难懂，具体还是看书吧p116-124。模型的参数越多，这个空间的维度就越多，搜索就越难。注意，上面的X为矩阵，Q为成本函数最小的值。

2023-05-20 23:37:34 46 2

qq_67479809的博客

原创机器学习基础练习之ttnkh

原创 day15--机器学习--聚类(1)

原创 day13--机器学习--降维(2)

原创 day12-－机器学习－－降维(1)

原创 day11-机器学习－－随机森林与集成学习(2)

原创机器学习－day10-随机森林与集成学习(1)

原创机器学习--day9--决策树整个流程

原创 day8－－决策树－－介绍

原创机器学习--day7--NB算法

原创机器学习--day6--KNN

原创机器学习--day5--SVM

原创机器学习--day4--训练模型

原创机器学习--day3--分类

原创机器学习--day2--端到端的机器学习项目

原创机器学习day1－－机器学习概览

原创自我介绍，以及以后的计划

空空如也

pythcharm误删了一些文件，然后就有Your JRE: 17.0.4+7-b469.53 amd64 (JetBrains s.r.o.)