自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 机器学习基础练习之ttnkh

print(f'女性的存活率是{rate_women}')print(f'男性的存活率为{rate_men}')#y是活着的,即要求预测的结果--标签。#用feature的特征来进行预测。#测试集与训练集要一样的模式。#模型使用为随机森林。

2023-06-03 23:07:50 83

原创 day15--机器学习--聚类(1)

已知你朋友的信息,比如经常发email的联系人,或是你的微博好友、微信的朋友圈,我们可运用聚类方法自动地给朋友进行分组,做到让每组里的人们彼此都熟识。例如,如果你已根据用户行为对网站用户进行了聚类,则可以检测到具有异常行为的用户,例如每秒的请求数量异常。聚类:识别相似实例并将其分配给相似实例的集群或组。聚类是很好的工具,用于数据分析、客户细分、推荐系统、搜索引擎、图像分割、半监督学习、降维等。机器学习的大多数应用都是基于有监督学习的,但是绝大多数可用数据都没有标签:具有输入特征X,但是没有标签y。

2023-06-01 23:23:46 76

原创 day13--机器学习--降维(2)

一旦确定了所有主要成分,你就可以将数据集投影到前d个主要成分定义的超平面上,从而将数据集的维度降低到d维。要将训练集投影到超平面上并得到维度为d的简化数据集Xd-proj,计算训练集矩阵X与矩阵Wd的矩阵相乘,矩阵Wd定义为包含V的前d列的矩阵。PCA背后的简单思想:比较原始数据集与其轴上的投影之间的均方距离,使这个均方距离最小的轴是最合理的选择,也就是实线代表的轴。该比率表示沿每个成分的数据集方差的比。在实线上的投影保留了最大的差异性,而点线上的投影只保留了非常小的差异性,虚线上的投影的差异性居中。

2023-05-31 23:44:01 52 1

原创 day12--机器学习--降维(1)

高维使得学习算法的泛化能力变弱(例如,在最近邻分类器中,样本复杂度随着维度成指数增长),维度越高,算法的搜索难度和成本就越大。维数灾难(Curse of Dimensionality):通常是指在涉及到向量的计算的问题中,随着维数的增加,计算量呈指数倍增长的一种现象。随着特征数量的增多,计算量会变得很大,维度太大也会导致机器学习性能的下降,并不是特征维度越大越好,模型的性能会随着特征维度的增加先上升后下降。假设现在有个特征x1用厘米表示身高,x2用英米表示身高,虽然是两个特征,不过表达的都是一个意思。

2023-05-30 21:49:26 45

原创 day11-机器学习--随机森林与集成学习(2)

随机森林核心点是「随机」和「森林」,也是给它带来良好性能的最大支撑。属性扰动:在随机森林中,对基决策树的每个结点,先在该结点的特征属性集合中随机选择 k 个属性,然后再从这 k个属性中选择一个最优属性进行划分。随机森林在树的生长上引入了更多的随机性:分裂节点时不再是搜索最好的特征,而是在一个随机生成的特征子集里搜索最好的特征。随机森林的另一个好特性是它们使测量每个特征的相对重要性变得容易。该特征的树节点平均(在森林中的所有树上)减少不纯度的程度来衡量该特征的重要性。随机森林投票(平均)。

2023-05-29 10:13:59 56

原创 机器学习-day10-随机森林与集成学习(1)

如果你聚合一组预测器(比如分类器或回归器)的预测,得到的预测结果也比最好的单个预测器要好。由于预测器在训练过程中从未看到oob实例,因此可以在这些实例上进行评估,而无须单独的验证集。上述过程重复m 轮,我们得到 m 个样本的采样集,初始训练集中有的样本在采样集中多次出现,有的则从未出现,约 63.2 的样本出现在采样集中,而未出现的约 36.8的样本可用作验证集来对后续的泛化性能进行「包外估计」。要创建出一个更好的分类器,最简单的办法就是聚合每个分类器的预测,然后将得票最多的结果作为预测类别。

2023-05-27 23:30:19 54 1

原创 机器学习--day9--决策树整个流程

对于离散取值的特征,决策树的划分方式是:选取一个最合适的特征属性,然后将集合按照这个特征属性的不同值划分为多个子集合,并且不断的重复这种操作的过程。是什么:在决策树生长过程中,对每个结点在划分前进行估计,若当前结点的划分不能带来决策树泛化性能的提升,则停止划分并将当前结点标记为叶结点。很6,看完对决策数的理解会上一层楼,其中的交叉验证如何使用,pd. Dates如何使用,多看看,去实践,更熟练,条件熵:和信息熵一样,就是概率不一样,信息熵是最后分类的标签的概率,条件熵是每个特征的概率,看实例更容易理解。

2023-05-26 21:07:49 48 1

原创 day8--决策树--介绍

决策树是一种树形结构,其中:每个内部结点表示一个属性的判断每个分支表示一个判断结果的输出每个叶结点代表一种分类类别决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-else结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法。决策树的决策过程就是从根节点开始,测试待分类项中对应的特征属性,并按照其值选择输出分支,直到叶子节点,将叶子节点的存放的类别作为决策结果。建立决策树的关键,即在当前状态下选择哪个属性作为分类依据。决策树是一种预测模型,代表的是对象属性与对象值之间的映射关系。

2023-05-25 23:31:57 68 1

原创 机器学习--day7--NB算法

贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素贝叶斯(Naive Bayes)分类是贝叶斯分类中最简单,也是常见的一种分类方法。朴素贝叶斯算法的核心思想是通过考虑特征概率来预测分类,即对于给出的待分类样本,求解在此样本出现的条件下各个类别出现的概率,哪个最大,就认为此待分类样本属于哪个类别。基于贝叶斯定理的贝叶斯是一种非常常用的分类算法,假设带分类项的各个属性相互独立的情况下,这个贝叶斯就是朴素的,称为朴素贝叶斯算法。

2023-05-24 23:53:36 77 3

原创 机器学习--day6--KNN

K近邻(K-Nearest Neighbor,KNN) 算法是一个典型的监督学习算法核心思想是:未标记样本的类别由距离其最近的K个邻居通过投票来决定。KNN的原理是: 计算待标记样本和数据集中每个样本的距离取距离最近的K个样本待标记的样本所属类别由这K个距离最近的样本投票产生。使用的距离是欧式距离,但也可以是其他距离,如更一般的L_p距离(L_p distance)或Minkowski距离。欧氏距离(Euclidean distance) 是最常用的距离计算公式,衡量的是多维空间中各个点之间的绝对距离。

2023-05-23 23:13:56 32 2

原创 机器学习--day5--SVM

这样我们就可以使用原来的推导来进行计算,只是所有的推导是在新的空间,而不是在原来的空间中进行,即用核函数来替换当中的内积。SVM回归要做的是让尽可能多的实例位于街道上,同时限制间隔违例(也就是不在街道上的实例)。支持向量机(Support Vector Machine,SVM)是一个功能强大并且全面的机器学习模型,它能够执行线性或非线性分类、回归,甚至是异常值检测任务。差不多了,今天就学到这了,csdn上面有很多优秀的文章,我这个只是每天激励自己学习,要是真的有帮助,那也算我的荣幸。

2023-05-22 22:39:41 49 1

原创 机器学习--day4--训练模型

一个简单的方法就是将每个特征的幂次方程添加为一个新特征,然后在此扩展特征集上训练一个线性模型。当存在多个特征时,多项式回归能够找到特征之间的关系,polynomialfeature还可以将特征的所有组合添加到给定的多项式阶数。预测公式其实和我们高中学的一元1次函数差不多,不过x不只有1个,有几个特征,就有几个x,y就是预测值。批量梯度下降,随机梯度下降,小批量梯度下降有点难懂,具体还是看书吧p116-124。模型的参数越多,这个空间的维度就越多,搜索就越难。注意,上面的X为矩阵,Q为成本函数最小的值。

2023-05-20 23:37:34 46 2

原创 机器学习--day3--分类

要计算混淆矩阵,需要先有一组预测才能将其与实际目标进行比较,当然,肯定是通过测试集来进行预测,不过现在不要动他(留在最后),作为替代,可以使用cross_val_predict()函数。在深入学习这些数据前,先创建一个测试集,在这个mnist数据集中,已经把💰60000张图片划分为训练集了,最后10000为测试集。本次学习将使用mnist数据集,这个数据集是手写的图片,可以从sklearn里面下载数据集。精度:在他预测为正中的总数为分母,分子为预测的结果为正确的。一般来说,精度越高,召回率越低。

2023-05-19 22:32:31 22 2

原创 机器学习--day2--端到端的机器学习项目

现在是用测试集来评估最终模型的时候了,这个时候需要从测试集中获取预测器和标签,通过y_test与预测结果进行对比,查看分数,如果之前进行过大量的超参数调整,这时候评估结果会略逊于你之前使用交叉验证的表现结果(因为通过不断调整,系统在验证数据上终于表现良好,在未知数据集上可能打不到那么好的效果),注意,注意,注意,但要是出现这种情况,一定不要继续调整超参数,不要试图让测试集的结果变得好看一些,因为这些改进在泛化到新的数据集时又会变得无用功(可能会出现过拟合)。

2023-05-18 22:38:02 85 1

原创 机器学习day1--机器学习概览

降维:目的在于不丢失太多的信息的前提下简化数据,方法之一是将多个相关特征合并为一个例如,汽车里程与其使用年限存在很大的相关性,所以降维算法把他们合并成一个代表汽车磨损的特征,这个过程叫特征提取,通常比较好的做法是,先使用降维算法减少训练数据的纬度,再将其提供给另一个机器学习算法,这会使他运行得很快,数据占用的磁盘空间和内存都会更小,在某些情况下,执行性能也会更高。研究模型,选择模型,使用训练数据进行训练,最后,应用模型对新示例进行预测,希望模型的泛化结果不错。

2023-05-17 23:25:23 70 2

原创 自我介绍,以及以后的计划

本人纯萌新,小白,是一名大学生,第一次写,主要希望能每天记录一下自己的小提升。每天激励自己学习,加油,加油,加油!主要的学习方向是想往机器学习那边搞。就先从《机器学习与实战》那开始学习吧。

2023-05-17 02:34:04 45 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除