机器学习
文章平均质量分 68
机器学习学习记录
绿树疯子
这个作者很懒,什么都没留下…
展开
-
回归与聚类——K-Means(六)
随机设置K个特征空间内的点作为初始的聚类中心。对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类中心点作为标记类别。接着对着标记的聚类中心之后,重新计算出每个聚类的新中心点(平均值)。如果计算得出的新中心点与原中心点一样,那么结束,否则重新进行第二步过程原创 2024-04-26 10:53:06 · 571 阅读 · 0 评论 -
回归与聚类——模型保存与加载(五)
获取数据、划分数据集、标准化、预估器、保存模型、得出模型、模型评估。原创 2024-04-26 10:06:57 · 402 阅读 · 0 评论 -
分类算法——ROC曲线与AUC指标(九)
AUC只能用来评价二分类AUC非常适合评价样本不平衡中的分类器性能。原创 2024-04-25 10:27:44 · 241 阅读 · 0 评论 -
分类算法——模型评估(八)
假设这样一个情况,如果99个样本癌症,1个样本非癌症,不管怎样我全都预测正例(默认癌症为正例),准确率就为99%但是这样效果并不好,这就是样本不均衡下的评估问题。在分类任务下,预测结果与正确标记之间存在四种不同的组合,构成混淆矩阵(适用于多分类)问题:如何衡量样本不均衡下的评估?召回率:99/99 = 100%答:ROC曲线与AUC指标。原创 2024-04-25 10:03:34 · 655 阅读 · 0 评论 -
分类算法——逻辑回归(七)
逻辑回归是机器学习中的一种分类模型,逻辑回归是一种分类算法,虽然名字中带有回归,但是它与回归之间有一定的联系。由于算法的简单和高效,在实际中应用非常广泛。逻辑回归的应用场景广告点击率是否为垃圾邮件是否患病金融诈骗虚假账号看到上面的例子,我们可以发现其中的特点,那就是都属于两个类别之间的判断。逻辑回归就是解决二分类问题的利器。逻辑回归的原理1输入逻辑回归的输入就是一个线性回归的结果。2激活函数sigmoid函数分析:回归的结果输入到sigmoid函数当中输出结果:原创 2024-04-24 10:45:26 · 854 阅读 · 0 评论 -
回归与聚类——岭回归(四)
岭回归,其实也是一种线性回归。只不过在算法建立回归方程时候,加上正则化的限制,从而达到解决过拟合的效果。带有L2正则化的线性回归——岭回归。原创 2024-04-23 11:53:18 · 308 阅读 · 0 评论 -
回归与聚类——过拟合与欠拟合(三)
欠拟合过拟合分析第一种情况:因为机器学习到的天鹅特征太少了,导致区分标准太粗糙,不能准确识别出天鹅。第二种情况:机器已经基本能区别天鹅和其他动物了。然后,很不巧已有的天鹅图片全是白天鹅的,于是机器经过学习后,会认为天鹅的羽毛都是白的,以后看到羽毛是黑的天鹅就会认为那不是天鹅。过拟合:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在测试数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。(模型过于复杂)欠拟合:一个假设在训练数据上不能获得更好的拟合,并且在。原创 2024-04-23 11:32:03 · 477 阅读 · 0 评论 -
回归与聚类——性能评估(二)
回归当中的数据大小不一致,是否会导致结果影响较大。所以需要做标准化处理。均方误差(Mean Squared Error)MSE)评价机制:注:y^i为预测值,y-为真实值我们也可以尝试去修改学习率此时我们可以通过调参数,找到学习率效果更好的值。原创 2024-04-23 10:48:46 · 525 阅读 · 0 评论 -
机器学习——分类算法总结
原创 2024-04-22 16:34:12 · 381 阅读 · 0 评论 -
回归与聚类——线性回归(一)
(1)定义与公式线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。原创 2024-04-22 11:52:48 · 1327 阅读 · 0 评论 -
分类算法——集成学习方法之随机森林(六)
在当前所有算法中,具有极好的准确率能够有效地运行在大数据集上,处理具有高维特征的输入样本,而且不需要降维能够评估各个特征在分类问题上的重要性。原创 2024-04-19 17:29:05 · 681 阅读 · 1 评论 -
分类算法——决策树(五)
优点:简单的理解和解释,树有可视化缺点:决策树学习者可以创建不能很好地推广数据的过于复杂的树,这被称为过拟合改进:减枝cart算法(决策树API当中已经实现,随机森林参数调优有相关介绍)随机森林注:企业重要决策,由于决策树很好的分析能力,在决策过程应用较多,可以选择特征信息熵、信息增益的计算DecisionTreeClassifier进行决策树的划分export_graphviz导出到dot文件。原创 2024-04-18 11:26:54 · 1171 阅读 · 0 评论 -
分类算法——文章分类(五)
优点:朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率。对缺失数据不太敏感,算法也比较简单,常用于文本分类。分类准确度高,速度快。缺点:由于使用了样本属性独立性的假设,所以如果特征属性有关联时其效果不好。条件概率、联合概率计算方式与特征独立的关系贝叶斯公式的计算。原创 2024-04-17 19:07:53 · 428 阅读 · 0 评论 -
分类算法——朴素贝叶斯(四)
上式中,P(产品,超重|喜欢)和P(产品,超重)的结果均为0,导致无法计算结果。这是因为样本量太少了,不具有代表性,本来现实生活中,肯定是存在职业是产品经理并且体重超重的人的,P(产品,超重)不可能为0;而且事件“职业是产品经理”和事件“体重超重”通常被认为是相互独立的事件,但是,根据我们有限的7个样本计算“P(产品,超重)=P(产品)P(超重)”不成立。也就是说,朴素贝叶斯,之所以朴素,就在于假定了特征与特征相互独立。4、在女神喜欢的条件下,职业是程序员,体重是超重的概率?1、女神喜欢的概率?原创 2024-04-17 11:53:14 · 604 阅读 · 0 评论 -
分类算法——模型选择与调优(三)
数据介绍:将根据用户的位置,准确性和时间戳预测用户正在查看的业务官网:https://www.kagge.com/navoshta/grid-knn/data。原创 2024-04-16 18:25:49 · 638 阅读 · 0 评论 -
机器学习——概述总结
总图:分部1:分部2:分部3:原创 2024-04-11 12:27:45 · 176 阅读 · 0 评论 -
机器学习—特征预处理和降维(四)
通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程。原创 2024-04-11 11:17:46 · 1040 阅读 · 0 评论 -
机器学习—数据集(二)
Python语言的机器学习工具Scikit-learn包括许多知名的机器学习算法的实现Scikit-learn文档完善,容易上手,丰富的API目前稳定版本0.19.1。原创 2024-04-09 15:58:53 · 936 阅读 · 0 评论 -
机器学习—特征工程(三)
特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。意义︰会直接影响机器学习的效果例一:机器学习算法——统计方法——数学公式文本类型—>数值例二:类型——>数值。原创 2024-04-09 18:03:53 · 962 阅读 · 0 评论 -
分类算法——KNN算法(二)
1KNN原理K Nearest Neighbor算法又叫KNN算法,这个算法是机器学习里面一个比较经典的算法,总体来说KNN算法是相对比较容易理解的算法。定义如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。来源:KNN算法最早是由Cover和Hart提出的一种分类算法、距离公式两个样本的距离可以通讨如下公式计算,又叫欧式距离距离计算有:曼哈顿距离(绝对值距离)、明可关斯基距离2电影类型分析其中?原创 2024-04-12 15:49:10 · 561 阅读 · 0 评论 -
机器学习和深度学习
机器学习是一种人工智能领域的分支,旨在使计算机系统能够自动从数据中学习和提高性能,而不需要明确的编程。简而言之,机器学习是利用经验来训练计算机系统,使其能够从输入数据中提取规律,并对新数据进行预测或分类。深度学习是机器学习的一个分支,它利用多层神经网络来处理复杂的数据和任务。深度学习中的神经网络由许多节点和层组成,每个节点都会接收一些输入,并计算出相应的输出。通过不断地调整网络参数,深度学习可以自动发现数据中的复杂模式,并产生高质量的预测或分类结果。原创 2024-04-07 21:16:52 · 524 阅读 · 0 评论 -
分类算法——sklearn转换器和估计器(一)
在sklearn中,估计器(estimator)是一个重要的角色,是一类实现了算法的API。从中可以看出,fit_transform的作用相当于transform加上fit。标准化:(X- mean) / std。原创 2024-04-12 14:54:58 · 980 阅读 · 0 评论 -
机器学习—概述(一)
数据模型预测从历史数据当中获得规律?这些历史数据是怎么的格式?原创 2024-04-08 20:15:31 · 342 阅读 · 0 评论