![](https://img-blog.csdnimg.cn/2021071109423743.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习库
文章平均质量分 53
对接触和学习的机器学习算法内容,进行归纳总结梳理
积跬步,慕至千里
知行合一!
想,都是问题;
做,才有答案!
展开
-
【模型篇】01 记点脑子里还残存的关于模型分类的三种方式
从不同的角度出发,观察同一模型,会让我们对同一个模型,有更多的了解,更深刻的体会。原创 2022-09-02 16:33:06 · 652 阅读 · 0 评论 -
Kmeans、DBSCAN、层次聚类等三种聚类算法笔记
一、Kmeans模型原创 2020-05-10 22:08:39 · 4282 阅读 · 0 评论 -
KNN模型笔记
一、KNN模型KNN(K近邻)模型,不会预先生成一个分类或预测模型,用于新样本的预测,而是将模型的构建与未知数据的预测同时进行。该算法对数据的分布特征没有任何要求。1 核心思想比较已知y值的样本与未知y值样本的相似度,然后寻找最相似的k个样本用作未知样本的预测。算法主要任务:确定最近邻的个数k值;用于度量样本间相似性的指标。2 k值的选择k值的影响:k值过于偏小,可能会导...原创 2020-05-10 22:21:44 · 836 阅读 · 0 评论 -
岭回归和LASSO回归模型(简记Logistic回归分类模型)
岭回归和LASSO回归模型目录一、岭回归模型1 λ 值的确定1.1 可视化方法确定 **λ** 值1.2 交叉验证法确定λ值2 模型预测线性回归模型的参数估计得到的前提是变量构成的矩阵可逆。在实际问题中,常出现的问题:可能会出现自变量个数多于样本自变量间存在多重共线性的情况为解决这类问题,可基于线性回归模型扩展的回归模型:岭回归和LASSO回归模型进行处理。一、岭回归模型在线性回...原创 2020-05-06 20:45:10 · 13351 阅读 · 2 评论 -
传统机器学习算法优缺点总结
传统机器学习算法优缺点总结算法优点缺点K-最近邻算法实现简单,预测的精度一般也较高对预测集的每个样本都需要计算它和每个训练样本的相似度,计算量较大,尤其是训练集很大的时候,计算量会严重影响算法的性能决策树准确率较高,可解释性强,对缺失值、异常值和数据分布不敏感等对于连续型的变量需要离散化处理,容易出现过拟合现象等朴素贝叶斯分类算法计算简单,在数据量较少的情况下依然有效,也适用于多分类的问题属性的相互独立假设在实际问题中可能得不到很好的满足。该算法在医学、经济和原创 2020-06-29 07:40:11 · 5067 阅读 · 0 评论 -
决策树、随机森林、GDBT模型笔记
决策树 不对多重共线性敏感,故无须删除某类哑变量中的一个。绘制决策树图在绘制决策树图之前,确保电脑中安装了Graphviz工具。读者可以前往 https://graphviz.gitlab.io/_pages/Download/Download_windows.html 下载,然后将解压文件中的bin路径设置到环境变量中,重新启动Python即可...原创 2020-05-07 20:22:09 · 968 阅读 · 0 评论 -
朴素贝叶斯模型、SVM模型笔记
朴素贝叶斯的主要应用有文本分类、垃圾文本过滤,情感判别,多分类实时预测等。原创 2020-05-10 22:20:56 · 983 阅读 · 0 评论 -
机器学习-模型注意点集锦(更新中....)
一、线性模型若将无序属性连续化,则会不恰当地引入序关系,对后续处理如距离计算等造成误导;当变量个数超过样本数时,会有多个解使均方误差最小化。选择哪一个解作为输出,将由学习算法的归纳偏好决定,常见的做法是引入正则化项;“对数几率回归”(logistics regression,也称logit regression)。优点:它是直接对分类可能性进行建模,无需事先假设数据分布,这样可以避免假设分布不准确所带来的问题。线性判别分析(Linear Discriminant Analysis,LDA)的思想很原创 2020-10-24 19:57:30 · 315 阅读 · 3 评论 -
时间序列分析方法——ARIMA模型案例
目录一、方法简介数据示例二、ARIMA模型python建模过程[^2]1 添加基础库2 读取数据3 绘制时间序列图4 自相关5 平稳性检验6 时间序列的差分d7 合适的p,q8 模型检验Ljung-Box检验9 模型预测时间序列分析方法1主要有:时间序列分解模型、指数平滑模型、ARIMA模型。一、方法简介方法简介时间序列分解模型该模型认为某一经济变量时间序列Yt主要由长期趋势T、季节变动S、周期变动C和不规则变动I四种因素构成,Yt是这四种因素的函数。Yt=f(Tt,St,Ct原创 2020-06-19 18:35:24 · 7541 阅读 · 4 评论 -
机器学习-模型评估与选择
目录一、经验误差与过拟合二、评估方法1 留出法2 交叉验证法3 留一法4 自助法三、性能度量-分类一、经验误差与过拟合过拟合:有多种因素可能导致,最常见的情况是**学习能力过于强大,以至于把训练样本所包含的不太一般的特性都学到了。很麻烦欠拟合:通常是由于学习能力低下而造成的的。比较容易克服二、评估方法测试集:指学的模型在实际使用中遇到的数据集验证集:模型评估和选择中用于评估测试的数据集训练集在对比不同算法的泛化性能时,我们用测试集上的判别效果来估计模型在实际使用时的泛化能力;而把训原创 2020-06-17 06:39:59 · 194 阅读 · 0 评论 -
常用的数据降维方法总结(更新中)
最近在了解一些行业分析指标设计方面的问题, 过程中看到了一些通用的方法,比如说降维,因此,浏览了一些网上的博文和手头的书籍,初步对降维方法做了一个汇总。还有很多需要完善的地方,根据后续学习,再来补充!数据降维方法总结 方法 细分类别 方法思想 优点 缺点 线性方法 PCA(Pricipal Component Analysis) 数据经过...原创 2020-04-16 16:55:33 · 4648 阅读 · 0 评论 -
032 《机器学习算法的数学解析与Python实现》读书笔记
目录一、随笔二、笔记一、随笔 这本书还是很友好的,书中可以认为全称不含晦涩难懂的公式,对于算法的思想解释, 却是简单易懂的。相信参照下涵盖了算法很多数学概念的书籍和此本书对照学习,对于数学概念的理解,可能也会变得有所友好吧。 最近看书学习有点偷懒好像,进展、成效都甚微。理理思绪,整好装备,全力以赴!《机器学习算法的数学解析与Python实现》作者:莫凡...原创 2020-04-12 22:02:57 · 1840 阅读 · 0 评论 -
023 《计量经济学》学习笔记
目录O、基础信息一、一元线性回归模型二、多元线性回归三、假定条件的不成立四、其他知识《计量经济学》 作者:张晓峒O、基础信息一、一元线性回归模型二、多元线性回归三、假定条件的不成立四、其他知识...原创 2020-03-21 11:36:45 · 675 阅读 · 0 评论 -
004 《Python3智能数据分析快速入门》读书笔记
临近放假,上班真的是,只想摸鱼,不对,摸鱼也累。 不想干活,就整理整理做的笔记吧,做做无脑运动,打发下这“摸鱼”时光。 这本书,作为一本工具书,真的很不错,涵盖的基础点很全,各处图表总结的都很到位。大致回想了下,是个人看过相关方面,实用性最好的一本书。原理性没有太多的介绍,篇幅也就相对更加的聚焦于实用性。以下内容参考自《Python3智能数据分析快速...原创 2020-01-16 15:10:42 · 399 阅读 · 0 评论 -
一个完整机器学习项目的基本流程
1 抽象成数学问题机器学习的第一步:明确问题。这里的抽象成数学问题,指的是明确我们可以获得什么样的数据,需要获得什么样的数据,明确目标是分类、回归、聚类等问题类型。2 获取数据机器学习结果的上限由数据决定,而算法只是尽可能逼近这个上限。数据要有代表性,否则容易过拟合。对于分类问题,数据偏斜不能过于严重,不同类别的数据数量不要有数个数量级的差距。对数据的量级要有一个评估,...原创 2019-02-23 16:06:32 · 4009 阅读 · 0 评论