![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 88
疯子书生z
这个作者很懒,什么都没留下…
展开
-
机器学习-模型性能评估及调参
目录1.使用网格搜索进行超参数调优2.随机网格搜索RandomizedSearchCV()3.乳腺癌数据集3.1 绘制ROC曲线4.基于svm的人脸识别4.1 实例5. 参考文章以鸢尾花卉数据集为例import pandas as pdfrom sklearn import datasetsiris = datasets.load_iris()X = iris.datay = iris.targetfeature = iris.feature_namesdata = pd.DataFram转载 2021-03-29 15:04:46 · 616 阅读 · 0 评论 -
机器学习-基本分类模型
目录1.收集数据集并选择合适的特征2. 选择度量模型性能的指标3. 选择具体的模型并进行训练3.1 逻辑回归logistic regression3.2 基于概率的分类模型3.2.1 线性判别分析3.2.2 降维分类的思想理解线性判别分析3.3 朴素贝叶斯3.3.1 相关模型代码实例3.4 决策树3.4.1 代码实例3.5 支持向量机3.6 非线性支持向量机3.6.1 代码实例1.收集数据集并选择合适的特征在数据集上我们使用IRIS鸢尾花数据集。from sklearn import datas原创 2021-03-27 20:31:43 · 960 阅读 · 0 评论 -
机器学习-回归模型评估及参数调优
目录1.参数与超参数2.调参2.1 网格搜索GridSearchCV()2.2 随机搜索对模型超参数进行调优1.参数与超参数参数:最小二乘法或者梯度下降法等最优化算法优化出来的数。超参数:无法用最小二乘法或者梯度下降法等最优化算法优化出来的数。简单来说,模型参数就是模型内部的配置变量,可以用数据估计它的值。模型参数一般具有以下特征:进行预测时需要参数。它参数定义了可使用的模型。参数是从数据估计或获悉的。参数通常不由编程者手动设置。参数通常被保存为学习模型的一部分。原创 2021-03-24 19:33:13 · 2704 阅读 · 0 评论 -
机器学习-偏差与方差
目录1.偏差与方差1.1 方差1.2 偏差2. 偏差-方差权衡3. 特征提取3.1训练误差修正3.2 交叉验证4. 压缩估计(正则化)4.1 岭回归实例4.2 Lasso实例5.降维5.1 主成分分析(PCA)1.偏差与方差Bias和Variance是针对Generalization来说的。在机器学习中,我们用训练数据集去训练一个模型,一般是定义一个误差函数,通过将这个Loss的最小化过程,来提高模型的性能。单纯地将训练数据集的loss最小化,并不能保证在解决更一般的问题时模型仍然是最优这个训练数据原创 2021-03-22 19:50:14 · 730 阅读 · 0 评论 -
机器学习(二)-回归模型
目录1.使用sklearn构建完整的回归项目1.1 线性回归模型1.2 最小二乘法2.1多项式回归2.1.1 多项式回归实例2.2 GAM模型实例2.3 sklearn使用回归树实例2.4 支持向量机回归(SVR)1.使用sklearn构建完整的回归项目(1)收集数据集并选择合适的特征,在数据集使用相对较熟悉的Boston房价数据集,会节省时间在数据处理花费较多时间。import pandas as pdfrom sklearn import datasetsboston = datasets.原创 2021-03-22 17:25:37 · 235 阅读 · 0 评论 -
机器学习基础
目录1.导论1.1 回归1.2 分类1.3 无监督学习1.导论什么是机器学习?根据西瓜书给出的定义,机器学习研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即学习算法。机器学习的一个重要的目标就是利用数学模型来理解数据,发现数据中的规律,用作数据的分析和预测。数据通常由一组向量组成,这组向量中的每个向量都是一个样本,我们用xix_ixi来表示一个样本,其中i=1,2,3,...,Ni=1,2,3,...,Ni=1,2,3,...,N,共N个样本,每个样本xi=(xi1,xi2,...,原创 2021-03-15 19:35:38 · 120 阅读 · 0 评论 -
数据分析---arXiv作者信息关联
作者信息关联5.1 说明主题:作者关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系;内容:构建作者关系图,挖掘作者关系5.2 数据处理步骤将作者列表进行处理,并完成统计。具体步骤如下:将论文第一作者与其他作者(论文非第一作者)构建图;使用图算法统计图中作者与其他作者的联系;5.3 社交网络分析图是复杂网络研究中的一个重要概念。Graph是用点和线来刻画离散事物集合中的每对事物间以某种方式相联系的数学模型。Graph在现实世界中随处可见,如交通运输图、旅游图、流程原创 2021-01-24 17:49:27 · 408 阅读 · 0 评论 -
异常检测——基于统计学的方法
异常检测——基于统计学的方法主要内容:高斯分布箱线图文章目录异常检测——基于统计学的方法1、概述2、参数方法2.1 基于正态分布的一元异常点检测2.2 多元异常点检测2.2 多个特征相关,且符合多元高斯分布2.3.使用混合参数分布3、非参数方法4、HBOS5、总结6、练习参考资料1、概述统计学方法对数据的正常性做出假定。**它们假定正常的数据对象由一个统计模型产生,而不遵守该模型的数据是异常点。**统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。异常检测的统计学方法的一般原创 2021-01-12 14:17:51 · 1236 阅读 · 1 评论 -
异常检测概述及实例
1、什么是异常检测异常检测(Outlier Detection),顾名思义,是识别与正常数据不同的数据,与预期行为差异大的数据。通俗的来说,就是发现与大部分对象不同的对象,也就是离群点,一般规定数据具有“正常”模型,而异常被认为是与这个正常模型的偏差。在实际应用中对异常的定义也是特定的。识别如信用卡欺诈,工业生产异常,网络流里的异常(网络侵入)等问题,针对的是少数的事件。1.1 异常的类别点异常:指的是少数个体实例是异常的,大多数个体实例是正常的,例如正常人与病人的健康指标;上下文异常:又称上下文原创 2021-01-10 10:53:10 · 2851 阅读 · 0 评论 -
机器学习 ---- 条件随机场
目录1.什么是条件随机场2.马尔科夫过程3.隐马尔科夫算法4.条件随机场(以线性链条件随机场为例)4.1定义4.2基本问题4.3概率计算问题4.4 前向-后向算法5. BFGS 算法6.预测问题1.什么是条件随机场条件随机场是一种无向图模型,且相对于深度网络有非常多的优势,因此现在很多研究者结合条件随机场(CRF)与深度网络获得更鲁棒和可解释的模型。在介绍条件随机场之前,首先简单说明马尔科夫...原创 2020-04-28 10:43:50 · 409 阅读 · 0 评论 -
机器学习-------- EM算法推导及高斯混合分布
1. 前言EM算法是机器学习十大算法之一,它很简单,但是也同样很有深度,简单是因为它就分两步求解问题,E步:求期望(expectation)M步:求极大(maximization)深度在于它的数学推理涉及到比较繁杂的概率公式等,所以本文会介绍很多概率方面的知识,不懂的同学可以先去了解一些知识,当然本文也会尽可能的讲解清楚这些知识,讲的不好的地方麻烦大家评论指出,后续不断改进完善。2....原创 2020-04-23 14:24:39 · 530 阅读 · 0 评论 -
机器学习 ---- 朴素贝叶斯
目录1 相关概念1.1 生成模型1.2 判别模型2 先验概率、条件概率2.1条件概率2.2先验概率2.3 后验概率3 贝叶斯决策理论4 贝叶斯公式4.1 极大似然估计4.2 朴素贝叶斯分类器5 极值问题情况下的每个类的分类概率6 下溢问题如何解决7 零概率问题如何解决?8 sklearn参数详解9 优缺点10 参考文献1 相关概念导入相关模块以及数据集from sklearn.n...原创 2020-04-23 09:58:09 · 421 阅读 · 0 评论 -
机器学习 -----线性回归
目录1.线性回归的概念1.1线性回归的原理1.1.1线性回归的一般形式:1.1.2极大似然估计(概率角度的诠释)2、线性回归损失函数、代价函数、目标函数3、线性回归的优化方法3.1、梯度下降法2 、最小二乘法矩阵求解3、牛顿法4、拟牛顿法4、线性回归的评价指标5、sklearn.linear_model参数详解:1.线性回归的概念1、线性回归的原理2、线性回归损失函数、代价函数、目标函数3...原创 2020-04-19 15:40:17 · 1288 阅读 · 0 评论