![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习实战
文章平均质量分 82
alwaysuzybai
"Serena, you're the most beautiful, amazing, alive person I've ever know."
展开
-
机器学习实战|第6周|第4章:特征工程|18:00~20:30
对于一个有N个不同取值的类别特征,独热编码将其转换为一个长度为N的二进制向量,只有对应类别的位置是1,其他位置是0。标签编码是针对定序变量的,也就是有顺序大小的类别变量,就好像案例中的变量ordinal_column的值(dislike、somewhat like 和like 可以分别用0、1和2来表示),同样地可以写一个自定义的标签编码器。常见的方法包括基于统计模型的方法(如正态分布、孤立森林等),基于距离的方法(如K近邻、LOF等),以及基于聚类的方法(如DBSCAN等)。原创 2023-06-24 21:58:18 · 1130 阅读 · 0 评论 -
机器学习实战|第5周|第3章:无监督学习与数据预处理|3.3降维|16:00~17:55
维度的诅咒(Curse of Dimensionality)是指随着特征维度的增加,数据分布在特征空间中变得稀疏,使得许多机器学习算法在高维空间中难以拟合数据并表现出低准确性的现象。随着特征维度的增加,需要更多的数据以保持训练数据的广度和多样性。否则,由于数据的稀疏性和噪声数据的增加,高维空间中会出现更多的重叠和间隔,从而导致模型的准确性下降和泛化误差增加。此外,高维数据还需要消耗更多的计算资源来处理,并且容易出现过度拟合问题。为了克服维度的诅咒,可以尝试以下方法:特征选择。原创 2023-06-24 17:58:18 · 605 阅读 · 0 评论 -
[补充]机器学习实战|第二周|第2章:监督学习|课后习题
为了建立深度MLP模型,需要使用Tensorflow的Keras API或PyTorch来定义并构建模型。在PyTorch中,您可以使用nn模块自定义模型,并使用相关层如Linear、ReLU、Dropout来构建模型。在TensorFlow中,您可以通过定义Sequential()或使用函数式API来搭建自定义模型,并添加层如Dense、Activation、Dropout等。对于MNIST数据集,通常的惯例是选取2-3个隐藏层,每个层的激活函数使用ReLU函数,输出层使用softmax函数进行分类。原创 2023-06-15 11:17:02 · 787 阅读 · 0 评论 -
机器学习实战|第4周|无监督学习与数据预处理|9:20~12:00
传统的计算机科学与技术专业、软件工程专业也开设了人工智能方向,而机器学习是其中重要的核心课程,学习和掌握机器学习技术具有巨大的社会需求。但总体上讲,其关注的核心问题是如何用计算的方法模拟人类的学习行为,从历史经验中获取规律(或模型),并将其应用到新的类似场景中。机器学习是用算法指导计算机利用已知数据自主构建合理的模型,并利用此模型对新的情境给出判断的过程。机器学习则是通过大量数据的输入,机器学习算法从中主动寻求规律(模型),评估模型的性能,然后用学习到的模型在新的数据上得出结论,自主解决问题。原创 2023-06-13 11:08:19 · 578 阅读 · 0 评论 -
机器学习|监督学习|无监督学习|8:20~9:20
监督学习:分类、回归无监督学习:聚类、降维半监督学习:两者结合自监督学习:无监督的一个分支强化学习:基于环境反馈。原创 2023-06-13 09:22:40 · 956 阅读 · 0 评论 -
机器学习实战|第一周|第1章:机器学习基础
未经过标记处理的原始数据多以非结构化数据为主,这些数据是不能被机器识别与学习的。只有经过标记处理后的数据,成为结构化数据才能被算法训练所使用的。训练集:用于训练模型。测试集:用于测试训练后模型的性能。训练集数据用于算法的学习,构建模型。机器学习将训练好的模型应用于新的数据,判断这个训练的模型是否可用,需要有评估模型性能的方法,故将测试集数据用于评估模型的性能。原创 2023-04-19 20:51:08 · 456 阅读 · 1 评论 -
学习通|机器学习练习题
的特征学习算法,它根据数据的概率模型学习一定数量的新特征,往往在使用RBM之后用线性模型(线性回归、逻辑回归、感知机等)的效果极佳。针对这些缺失值的处理方法,主要是基于变量的分布特性和变量的重要性(信息量和预测能力)采用不同的方法。10 决策树是使用最广泛的机器学习模型之一,因为决策树可以很好地处理噪声或丢失的数据,并且可以很容易地进行整合,以形成更强大的预测器(集成方法常采用决策树作。7 多层感知机MLP的精度相当好,但没有其他模型好,与较早的SVC例子相同,原因可能在于数据的收敛。原创 2023-04-24 18:46:52 · 1011 阅读 · 0 评论 -
第二个机器学习应用:乳腺癌数据集在决策树模型上的挖掘
此时决策树在训练数据集上预测准确率是百分百的,但是在测试数据集上只有60%的准确率,很显然出现了过拟合,可通过设置树深来改善过拟合。设置max_depth=4,这表明构造的决策树只有4层,限制树的深度可以减少过拟合,这会降低训练集的精度,但可以提高测试集的精度。训练精度为98.8%,测试精度为95.1%,树的最大深度只有4层,降低了训练精度,但提高了泛化(测试)精度,改善了过拟合的状况。,每个特征对树决策的重要性进行排序, 其中0表示“根本没用到”,1表示“完美预测目标值”,特征重要性的求和始终为1。原创 2023-04-22 14:28:54 · 1925 阅读 · 0 评论 -
机器学习实战|第二周|第2章:监督学习|课后习题
SVM尝试寻找一个最有的决策边界,这个决策边界称为最大间隔超平面,它能把两类数据分开,并使得两类数据中距离超平面距离最近的点最大化距离。样本中存在距离超平面最近的一写点,这些点叫作支持向量。支持向量的数量比样本数据少量很多,简单来说,支持向量就是两类样本中,距离超平面最近的一些点。SVM分类器的关键在于:为了拟合,只有支持向量的位置是重要的;任何远离边距的点,都不会影响拟合。边界之外的点无论有多少都不会对其造成影响。原创 2023-04-22 11:38:36 · 814 阅读 · 0 评论 -
解决‘function‘ object has no attribute ‘data‘
function对象没有data属性。原创 2023-04-22 11:15:12 · 3413 阅读 · 0 评论 -
机器学习实战|第二周|第2章:监督学习|课堂笔记
图灵测试 人工智能 机器学习与人工智能的关系 AI发展史 机器学习分类 极大似然估计 优化算法原创 2023-03-11 21:11:40 · 79 阅读 · 0 评论 -
机器学习实战|第一周|第一个机器学习应用:鸢尾花分类
准备:采用Scikit- learn中鸢尾花数据集,完成一个简单的机器学习应用,构建第一个机器学习模型。已知:这些花已经被植物学专家鉴定为三个类别:setosa、versicolor、virginica问题:要在多个选项(3个鸢尾花类别)中预测其中一个鸢尾花的品种,这是一个问题。可能的输出叫作。数据集中每朵鸢尾花都属于三个类别之一,所以这是一个三分类问题。单个数据点(一朵鸢尾花)的预期输出是这朵花的品种。对于一个数据点来说,它的品种叫作标签。关键函数:load_iris() 载入iris数据集。原创 2023-04-19 23:40:29 · 1206 阅读 · 0 评论